1.MuseNet:ショパン風のレディガガ、ビートルズ風のハリポッターのテーマ(3/4)まとめ
・現在公開中のMuseNetは試作版のため楽器の指定は必須条件にならない等の制限がある
・MuseNetが抽出した作曲家間の特徴を図にする事で作曲家間の類似性を二次元グラフにする事もできる
・音楽生成はテキスト生成と画像生成の中間に位置するためモデルをテストするのに便利な研究分野
2.MuseNetが学んだ作曲家間の類似性
以下、openai.comより「MuseNet」の意訳です。元記事は2019年4月25日、Christine Payneさんによる投稿です。
Try MuseNet
MuseNetを使ったコンポーザーのプロトタイプが公開されており、5月12日まで利用可能な予定です。(5月12日時点で私達は皆さんからのフィードバックに基づいて次にどうするかを明らかにするでしょう)。
プロトタイプではMuseNetのオプションの一部分のみが使用可能です。私たちは、ミュージシャンやミュージシャン以外の一般の人々がMuseNetを使って新しい楽曲を作成する方法を見て興奮しています。
シンプルモード(最初に表示されています)では、事前に生成された無作為で精選されていないサンプルを聞く事ができます。作曲家名やスタイル、有名な作品の出だしをオプションで選択すると、生成が開始されます。これにより、モデルが作成できるさまざまな音楽スタイルを聞く事ができます。
アドバンスモードでは、モデルを直接操作できます。曲の完成までにはシンプルモードより時間がかかりますが、あなたはまったく新しい作品を作成する事ができます。
このツールは現在、試作段階ですので、不具合があってもご容赦ください。現在のMuseNetの制限は次のとおりです。
(1)演奏に使う楽器を指定してもそれは「強い提案」と見なされ、必須条件とはみなされません。MuseNetは内部的に、選択可能な全ての楽器と音符から、次に出現する音符の確率を計算する事で曲を生成します。MuseNetはあなたが選択した楽器を優先するようにしますが、他の楽器が絶対に選ばれないと言うわけではありません。
(2)MuseNetは選択された音楽スタイルと楽器の組み合わせが奇異な場合(ピアノ音楽で有名なショパンに、ベースやドラムを組み合わせるなど)は苦戦します。作曲家やバンドの通常のスタイルに最も近い楽器を選ぶと、より自然な出力になります。
作曲家と楽器を示すトークン
MuseNetが生成する曲の種類をより細かく制御できるように、作曲家と楽器を示すトークン(記号)を作成しました。トレーニングの実行中、これらの作曲家と楽器のトークンは各サンプルの前に追加されたので、モデルは音符予測をする際にこの情報を使用して学習しました。
これにより、新たに作曲をする際に、セルゲイ・ラフマニノフのピアノのイントロ部分を開始部分としてAIに指示し、選択されたイントロに続くスタイルでサンプルを作成するようにモデルを調整できます。
もしくは、ピアノ、ベース、ギター、ドラムなどの楽器の指示と共に、1970年代中期にアメリカで活躍したJourneyというバンドのスタイルを指示する事もできます。
MuseNetが作り上げたEmbeddingsを視覚化し、モデルが何を学んだかについての洞察を得る事もできます。以下は、t-SNEを使用して、さまざまな作曲家のスタイルの類似性を表現したマップです。
長期的構造の記憶
MuseNetは、スパーストランスフォーマーの再計算および最適化されたカーネルを使用して、24のAttention headsを持つ72層のネットワークをトレーニングしています。(4096トークンのコンテキストについてFull Attentionしています)。この長い文脈が、ショパンを模した次の例のように、長期的な構造を一片に記憶できる理由の1つかもしれません。
このサンプルがモーツァルトを模しているように、それは音楽的な旋律的構造を作り上げることもできます。
音楽生成は、テキスト生成と画像生成の中間に位置するため、スパーストランスフォーマーをテストするのに便利な研究分野です。
それはテキスト生成のような流動的なトークン構造を持っています。(画像生成ならばN個のトークンを遡れば元になった情報を見つけることができますが、音楽生成では前の小節に遡るための固定数はありません)。
それでも、モデルが数百から数千程度のトークンの長期的な構造をとらえているかどうかは簡単にわかります。テキスト生成モデルは一時的に主題から脱線してもそれほど明確ではありませんが、音楽生成モデルが脱線するとリズムがめちゃくちゃになるので、はるかに明白です。
3.MuseNet:ショパン風のレディガガ、ビートルズ風のハリポッターのテーマ(3/4)関連リンク
1)openai.com
MuseNet
コメント