1.USM:100以上の言語に対応した最先端の音声AI(1/2)まとめ
・昨年の11月、Googleは世界で最も話されている1,000の言語をサポートする機械学習モデルの構築を目標に掲げた
・ユニバーサルスピーチモデルはその実現に向けた重要な一歩であり300以上の言語にまたがる音声とテキストで学習した音声モデル
・従来の教師あり学習アプローチでは規模拡大が難しかったため、自己教師あり学習を微調整するという手法を取っている
2.USMとは?
うーん、そうか、やっぱりGoogleもそうなってしまったか、と言う気がします。
はい、本投稿で紹介しているUSMはモデルの公開ではなく「API待機リストへのご登録はこちら」となっています。私がgoogle aiブログにひたすら注目していた理由は、研究者/技術者が書いているのでシンプルでわかりやすく、オープンであり、ノウハウが公開されており、且つ、マーケティング臭があまりしない所だったのですが「私たちのモデルは他と比べてこんなに凄いです!」ってだけの話になってしまうと、正直、あまり面白味がないと感じてしまうのですよね。
そろそろWebbigdataも考え時ですね。
アイキャッチ画像は万国旗的な感じのアイキャッチ画像を作りたいんですよね、とchatGPT先生に相談して作成したプロンプトを元にカスタムStable Diffusion先生に作って貰ったイラスト。このテイストは私単独では描けなかったと思うのでやっぱりchatGPT先生は凄いなと思います。
昨年の11月、私たちは「1,000 Languages Initiative」を発表しました。これは、世界で最も話されている1,000の言語をサポートする機械学習(ML:Machine Learning)モデルを構築し、世界中の何十億もの人々を疎外されないようにするという意欲作です。しかし、これらの言語の中には、2,000万人未満が話す言語もあり、比較的話者の少ない言語や利用可能なデータが限られている言語をどのようにサポートするかが、中心的な課題となっています。
本日は、1,000言語のサポートに向けた重要な第一歩となるユニバーサルスピーチモデル(USM:Universal Speech Model)の詳細をお伝えします。
USMは、300以上の言語にまたがる1200万時間の音声と280億文のテキストで訓練された20億のパラメータを持つ最先端の音声モデル群です。
USMは、YouTube(画面に文字で追加の補足情報を字幕表示する際など)に使用されるもので、英語や北京語など広く話されている言語だけでなく、アムハラ語、セブアノ語、アッサム語、アゼルバイジャン語など、利用可能なデータが不足している言語についても自動音声認識(ASR:Automatic Speech Recognition)を行うことができます。
論文「Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages」では、ラベルのない大規模な多言語データセットを利用してモデルのエンコーダを事前学習し、より少ないラベル付きデータセットで微調整することで、十分に普及していない言語を認識できることを実証しています。さらに、このモデルの学習プロセスは、新しい言語やデータへの適応に効果的です。
USMがサポートする言語の一例
現在のASSRにおける課題
この野心的な目標を達成するためには、ASRにおける2つの重要な課題を解決する必要があります。
第一に、従来の教師あり学習アプローチでは規模拡大が難しいと言う事です。
音声技術を多言語に拡張する際の基本的な課題は、高品質のモデルを学習するための十分なデータを得ることです。従来のアプローチでは、音声データは手作業でラベル付けする必要があり、時間とコストがかかります。また、既存の書き起こしデータが存在する音声データを収集する必要がありますが、広く使われていない言語では見つけることが困難です。一方、自己教師あり学習では、音声のみのデータを活用することができ、言語ごとに大量に入手することができます。そのため、数百の言語に対応するという私たちの目標を達成するためには、自己教師あり学習がより優れたアプローチとなります。
もう一つの課題は、言語のカバー範囲と品質を拡大する一方で、計算効率の高い方法でモデルを改善しなければならないことです。そのためには、学習アルゴリズムが柔軟で効率的、かつ一般化可能であることが必要です。具体的には、様々なソースからの大量のデータを利用でき、完全な再学習を必要とせずにモデルの更新が可能で、新しい言語やユースケースに一般化できるようなアルゴリズムが必要です。
私たちのアプローチ:微調整を伴う自己教師あり学習
USMは、標準的なエンコーダとデコーダのアーキテクチャを採用しており、デコーダはCTC、RNN-T、LASのいずれかを使用します。エンコーダには、Conformer(畳み込みで拡張したtransformer)を使用します。Conformerの主要な構成要素は、attention、フィードフォワード、畳み込みモジュールで構成されるConformerブロックです。このブロックは、音声信号のlog-melスペクトログラムを入力として、畳み込みサブサンプリングを行い、その後、一連のConformerブロックと投影層(projection layer)を適用して、最終的なembeddingsを得ることができます。
私たちのトレーニングパイプラインは、第1ステップとして、数百の言語をカバーする音声データの自己教師あり学習から始まります。
オプションの第2ステップでは、テキストデータによる事前学習ステップを追加することで、モデルの品質と言語カバー率を向上させることができます。
第2ステップを導入するかどうかは、テキストデータが利用可能かどうかで決まります。USMは、この2番目のオプションステップで最高のパフォーマンスを発揮します。トレーニングパイプラインの最後のステップは、少量の教師ありデータで下流タスク(ASRや自動音声翻訳など)の微調整を行うことです。
3.USM:100以上の言語に対応した最先端の音声AI(1/2)関連リンク
1)ai.googleblog.com
Universal Speech Model (USM): State-of-the-art speech AI for 100+ languages
2)arxiv.org
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
3)sites.research.google
Universal Speech Model Towards Automatic Speech Recognition for All