10億のパラメータを持つ人工知能は張り詰めたぁ～弓のぉ～震える弦よぉ～♪の続きを歌えるのか？

１．10億のパラメータを持つ人工知能は張り詰めたぁ～弓のぉ～震える弦よぉ～♪の続きを歌えるのか？まとめ

・未完の文章や画像の続きを作風を合わせて完成させる事が出来る人工知能が発表されている
・Jukeboxは同様に生の音楽のイントロの続きを指定した作風で補完する事ができる人工知能
・今回評価したのは10億パラメータ版で真のラスボスは50億版だが取り扱いが困難

２．生の音声を直接生成できる人工知能の実力

アイキャッチ画像はSTUDIO GHIBLIが「常識の範囲でご自由にお使いください」との断り書きで一般公開してくださっているもののけ姫の作品静止画集より引用

2021年2月追記)相変わらずジブリですが50億版を「50億のパラメータを持つ人工知能はどこかぁ～に君ぃ～を隠しているからぁ～♪の続きを歌えるのか？」で公開しました。

人間が途中まで書いた文章の続きをスタイルを合わせて書く事が出来るGPT-3、人間が途中まで描いた画像の続きをスタイルを合わせて描く事が出来るImageGPTなど、文章や画像の分野では求められている作風に合わせて作品を完結する事ができる人工知能が出現していますが、その音楽版であるJukeboxの実力を調べてみました。

まず最初にお断りしておきますが今回はハンデ戦で、人工知能の最大能力を発揮できているわけではありません。

・Jukeboxと名付けられたこの人工知能は英語の歌詞と主に西洋の音楽で学習を行っているため日本語の歌はおそらく知りません。
・Jukeboxには50億のパラメータを持つ上位版が存在しますが、Googleが無料で使わせてくれているGPUでは動作させる事ができなかったので10億版で実験しています。
・曲の導入部分を約10秒間入力データとして与え、それに続く10秒程度を作曲して貰っています。その他、特別なチューニングはしていません。(わずか10秒程度ですがそれでも１曲分を計算するために2時間15分程度かかっています)
・少し音量が大きめでノイズも乗っているのでご注意ください。

（１）ラピュタのトランペット

歌声が入っておらずメロディーラインがはっきりしている曲と言う事で選曲してみました。
入力として与えたイントロ部分の長さ12秒
○印が比較的マシかなと思った曲です。

カントリー風その１

ブルースロック風

トラディショナル・ポップ風

ジャズ風

○ポップ・ミュージック風

カントリー風その２

（２）ナウシカのランランララランランラン～♪

人の声は入っているが歌詞の理解は必要はない曲、と言う事で選曲してみました。
入力として与えたイントロ部分の長さ10秒
▲印が思わず笑ってしまった曲です。

カントリー風その１

ブルースロック風

▲トラディショナル・ポップ風

ジャズ風

ポップ・ミュージック風

カントリー風その２

（３）もののけ姫の主題歌

日本語の歌詞にどこまで対応できるのかと言う事で選曲してみました。
入力として与えたイントロ部分の長さ10秒
★印がとても驚いた曲です。

カントリー風その１

ブルースロック風

トラディショナル・ポップ風

ジャズ風

★ポップ・ミュージック風

カントリー風その２

まとめ
上から順番に作成していったので、当初、これは電子ゴミを量産してしまったのかと思いましたが、人の声が入ってる方が上手に補完できている気がします。もののけ姫のポップ・ミュージック風の主題歌は本当に自然な感じで続ける事が出来ており驚きです。

こうなると、50億版も試してみたくなりますが、元記事には「1分間のオーディオを完全にレンダリングするには約9時間かかる」と書かれていたので、比較的安いクラウドを利用しても計算を完了させるまでに1万円以上は確実にかかりそうなので、一万払って電子ゴミを大量生産する事になったら嫌だな～と思いつつ時間と予算が取れたらやってみたいですね～。