Dance Diffusion：Stable Diffusionの音楽版が出来るかもしれない

１．Dance Diffusion：Stable Diffusionの音楽版が出来るかもしれないまとめ

・HarmonaiというプロジェクトからDance Diffusionという音楽生成モデルが公開
・HarmonaiにはStable Diffusionの公開元であるstability.aiが関わっている
・現時点ではまだ雑音が多いが性能が向上する速度は早いかもしれない

２．Dance Diffusionとは？

アイキャッチ画像はstable diffusionの生成で指揮者トトロ

HarmonaiというプロジェクトからDance Diffusionという音楽生成モデルが公開されています。

Harmonaiは画像生成モデルとして一躍有名になったStable Diffusionの公開元であるstability.aiが関わっているプロジェクトです。

おそらくはStable Diffusionの音楽版を目指しているのだろうと思いますが、現時点ではVersion 0.01なだけあって、まだ雑音も多く音楽とは呼ぶのは難しいレベルのものしか出来ないようでした。

Dance Diffusionで生成したサンプルオーディオ

公開されているColabで現時点で実装されているものは以下です。

（１）ランダムなサンプルオーディオを生成
（２）単一のオーディオファイルを使用してサンプルの再生成/スタイルの転送
（３）2 つのオーディオファイル間のオーディオを補間する

サンプルオーディオを聞いて「まだまだだな」と思った方もいるかもしれませんが、音楽生成AIは他にも存在します。

例えば、2021年1月に発表されたOpenAIのJukeboxと言うモデルで作成したサンプル音楽を過去にアップした事があるので興味のある方は聞いてみてください。

Dance DiffusionがJukeBoxと同程度のレベルに達するまでにそれほど時間は掛からないのではないかな、と思っています。

個人的な経験で感じたことは、音楽生成AIが難しいのは、生成した音楽の良し悪しを判断するのに物理的な時間がかかると言うところかなと思っています。

画像であれば数十枚の画像でも1秒で「明らかにダメ」や「明らかに良い」がサッと判断が付きますが、音楽は少なくとも２０～３０秒聞かないと良し悪しの判断がつかないです。学習そのものにも時間がかかりますし、学習したモデルで音楽を生成するのにも時間がかかりますし、学習進捗のチェックや比較にも時間がかかります。

システム的にチェックできれば良いのですが、生成された音楽に自分が適用したいスタイルをどこまで再現出来ているかをシステム的にチェックする方法を私はまだ知らないです。

また、Jukeboxは凄い技術でしたが、気軽に動かすのが当時は難しかったという問題もあったかな、と思います。

Dance Diffusionは拡散モデルベースと言う事は、おそらくJukeboxよりも大分軽く気軽に動かせるモデルになると予想されますが、PDCAのサイクルを早く回せるか否かがポイントになるのかな、と思っています。