1.AI Choreographer:音楽に合わせたダンスを生成する人工知能(1/2)まとめ
・機械学習でダンスを生成するには動きと音楽を考慮して連続モーションを生成する能力が必要
・既存のAISTダンスデータセットに3D情報を付与してAIST++データセットを開発した
・AIST++は10のジャンルと様々なテンポからなる最大の3Dヒューマンダンスデータセット
2.AIST++とは?
以下、ai.googleblog.comより「Music Conditioned 3D Dance Generation with AIST++」の意訳です。元記事は2021年9月13日、Shan YangさんとAngjoo Kanazawaさんによる投稿です。
AIST++の元となったAIST Dance DBは、国立研究開発法人産業技術総合研究所(AIST:Agency of Industrial Science and Technology)が公開してくれている研究目的なら無料で利用できるダンスデータセットです。
アイキャッチ画像のクレジットはPhoto by Jeremy Bishop on Unsplash
ダンスはほぼすべての文化に見られる普遍的な身体言語であり、今日の現代的なメディアプラットフォームで自分自身を表現するために多くの人々が使用する手段です。音楽のビートに合わせた動きのパターンを構成して踊る能力は、人間の行動の基本的な側面です。
しかしながら、ダンスは練習が必要な芸術の一形態です。事実、表現力豊かな振り付けを作成するために必要なダンスモーションの豊富なレパートリーをダンサーに提供するには、専門的なトレーニングが必要になることがよくあります。
このプロセスは人にとっては困難ですが、機械学習(ML:Machine Learning)モデルではさらに困難です。これは、このタスクを実現するためには、動きと付随する音楽の間の非線形の関係を捉えながら運動学的に複雑な連続モーションを生成する能力が必要なためです。
ICCV 2021で発表された論文「AI Choreographer: Music-Conditioned 3D Dance Generation with AIST++」ではFull-Attention Cross-modal Transformer(FACT)モデルが、ダンスの動きを模倣して理解することができ、ダンスを振り付けする人の能力を高めることさえできることを示します。
モデルと一緒に、大規模なマルチモーダル3DダンスモーションデータセットAIST++をリリースしました。これには、1408シーケンスで5.2時間の3Dダンスモーションが含まれ、それぞれのカメラ姿勢が明確になっている複数視点から撮影したビデオを含む10のダンスジャンルをカバーしています。AIST ++に関する広範なユーザー調査を通じて、FACTモデルは、定性的および定量的に、従来の最先端手法よりも優れていることがわかりました。
音楽で条件付けしたリアルな3Dダンスモーション(右)を生成できる、新しいフルアテンションクロスモーダルトランスフォーマー(FACT)ネットワークと新しい3DダンスデータセットAIST++(左)
今回提案した3Dモーションデータセットは既存のAISTダンスデータベースから生成しています。
これは、音楽の伴奏が付いているが3D情報がないダンスビデオのコレクションです。AISTには、オールドスクール(Break, Pop, Lock, Waack)とニュースクール(Middle Hip-Hop, LA-style Hip-Hop, House, Krump, Street Jazz, Ballet Jazz)の10のダンスジャンルがあります。ダンサーのマルチビュービデオが含まれていますが、これらのカメラは較正(calibration)されていません。
私たちの目的のために、広く使用されているSMPL 3Dモデルで使用されるパラメーターの観点から、カメラのキャリブレーションパラメーターと三次元の人間の動きを復元しました。
結果として得られるデータベースAIST++は、音楽と組み合わせたさまざまな3Dモーションを含む大規模な3Dヒューマンダンスモーションデータセットです。各フレームには、広範な注釈が含まれています。
・カメラの内部および外部パラメーターと9つの視点
・2Dと3Dの両方で17のCOCO形式の人間の関節位置
・24のSMPLポーズパラメータとグローバルスケーリングおよび変換
モーションは10のダンスジャンルすべてに均等に分散され、1分あたりのビート数(BPM:Beat Per Minute)でさまざまな音楽テンポをカバーします。ダンスの各ジャンルには、85%の基本的な動きと15%の高度な動き(ダンサーが自由にデザインした長い振り付け)が含まれています。
AIST++データセットには、マルチビュー同期画像データも含まれているため、2D/3Dポーズ推定などの他の研究の方向性に役立ちます。
私たちの知る限り、AIST++は、1408のシーケンス、30の主題、10のダンスジャンルを持ち、基本的な振り付けと高度な振り付けの両方を備えた最大の3Dヒューマンダンスデータセットです。
AIST ++データセットの3Dダンスシーケンスの例
左:AISTダンスビデオデータベース内のダンスビデオの3つの視点
右:3Dメッシュ(上)とスケルトン(下)で視覚化された再構築された3Dモーション
AISTは教育に用いられるデータベースであるため、ダンス練習の際の常とう手段である1分あたりのビート数(BPM:Beat Per Minute)を変えたり、さまざまな音楽を同じ振り付けに従って複数のダンサーで記録しています。
モデルはオーディオとモーションの間の1対多のマッピングを学習する必要があるため、クロスモーダルシーケンス間生成(cross-modal sequence-to-sequence generation)に固有の課題をもたらします。
学習用データとテスト用データを慎重に選択し、AIST++では振り付けも音楽もテストデータセットと学習用データセット間で共有されないようにしています。
3.AI Choreographer:音楽に合わせたダンスを生成する人工知能(1/2)関連リンク
1)ai.googleblog.com
Music Conditioned 3D Dance Generation with AIST++
2)google.github.io
AIST++ Dance Motion Dataset
AI Choreographer Music Conditioned 3D Dance Generation with AIST++
3)google.github.io
google-research / mint
4)aistdancedb.ongaaccel.jp
AIST Dance Video Database