AudioLM：スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)

１．AudioLM：スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)まとめ

・AudioLMの学習データは生のオーディオのみで文書化されたデータは未使用
・人間の評価者は人間の音声とAudioLMの生成音声の見分けがつかなかった
・AudioLMが生成した合成音声を高い精度で検出する分類器は開発できた

２．AudioLMの性能

以下、ai.googleblog.comより「AudioLM: a Language Modeling Approach to Audio Generation」の意訳です。元記事の投稿は2022年10月6日、Zalán BorsosさんとNeil Zeghidourさんによる投稿です。

アイキャッチ画像はstable diffusionの生成

学習後、AudioLMに数秒のオーディオを条件に設定して、これに続くより一貫した続きを生成することができます。AudioLM のフレームワークの汎用性を示すために、異なる音声領域から 2 つのタスクについて考察します。

スピーチの継続(Speech continuation)

スピーチの継続では、モデルは入力プロンプトとして与えられた話者の特徴、韻律、録音条件を保持しながら、構文的に正しく、意味的に一貫性のある新しいコンテンツを生成することが期待されます。

ピアノの継続(Piano continuation)

ピアノの継続では、メロディ、ハーモニー、リズムの点で入力プロンプトに続く首尾一貫したピアノ音楽を生成することが期待されています。

以下のビデオでは、音声または音楽を継続させ、トレーニング時には聞いていない新しいコンテンツを生成するようモデルに要求している例を聞くことができます。

灰色の縦線以降がすべてAudioLMによって生成されたオーディオであり、モデルはテキストや音楽を転記したものを見たことがなく、生のオーディオから学習しただけであることに注意してください。AudioLMのWebページでは、さらに多くのサンプルを公開しています。

この結果を検証するため、人間の評価者に短い音声クリップを聞いてもらい、それが人間の音声の原音か、AudioLMによって生成された合成音かを判断してもらうことにしました。

その結果、51.2%の成功率となり、ランダムにラベルを付与した場合の50%と比較して、統計的に大きな差はありませんでした。これは、AudioLMによって生成された音声は、平均的なリスナーにとって実際の音声と区別しにくいということを意味します。

なお、AudioLMは研究用であり、現時点では一般に公開する予定はありません。私たちは、「AI原則」に基づき、AudioLMによって合成された短い音声サンプルを、人が本物の音声と誤認する可能性を理解し、軽減することを目指しました。

そのために、AudioLMが生成した合成音声を非常に高い精度(98.6%)で検出できる分類器を学習させました。このことは、AudioLMによって生成された連続音声は、聞き手によってはほとんど区別がつかないにもかかわらず、単純な音声分類器によって非常に容易に検出できることを示しています。

これは、AudioLMを潜在的な悪用から保護するための重要な第一歩であり、将来的には音声透かしのような技術も検討される可能性があります。

まとめ

長期的な一貫性と高い音質を両立する音声生成のための言語モデリングアプローチであるAudioLMを紹介しました。

音声生成の実験により、AudioLMはテキストがなくても構文的・意味的に一貫した音声を生成できるだけでなく、モデルによって生成された続きの音声は人間による実際の音声とほとんど見分けがつかないことが示されました。

さらに、AudioLMは音声にとどまらず、ピアノ音楽のような任意の音声信号のモデル化も可能です。このことは、将来的に他の種類の音声(多言語音声、多声音楽、音声イベントなど)への拡張や、音声合成や音声翻訳などの条件付きタスクのためのエンコーダ・デコーダのフレームワークにAudioLMを統合することを後押ししています。

謝辞

この研究は、Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Olivier Teboul, David Grangier, Marco Tagliasacchi および Neil Zeghidourによって記述されたものです。
また、Googleの同僚から受けたこの研究に対するすべての議論とフィードバックに感謝します。