Lyra：音声圧縮用の新しい超低ビットレートコーデック(2/2)

１．Lyra：音声圧縮用の新しい超低ビットレートコーデック(2/2)まとめ

・Lyraは計算量の少ないWaveRNNの亜種を使用することで生成モデルの計算の複雑さを回避
・中級クラスのスマートフォン上でもリアルタイム処理が出来るほど軽量なモデルとなった
・Lyraは現在3kbpsで動作するように設計されて従来の他のコーデックよりも品質が優れる

２．Lyraの性能

以下、ai.googleblog.comより「Lyra: A New Very Low-Bitrate Codec for Speech Compression」の意訳です。元記事の投稿は2021年2月25日、Alejandro LuebsさんとJamieson Brettleさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jason Rosewell on Unsplash

生成モデルに関する1つの懸念は、計算の複雑さです。
Lyraは、より計算量の少ない反復生成モデルであるWaveRNNバリエーションを使用することでこの問題を回避します。これは、より低いレートで動作しますが、異なる周波数範囲で複数の信号を並列に生成し、後で必要なサンプルレートで単一の出力信号に結合します。

このトリックにより、Lyraはクラウドサーバー上で実行できるだけでなく、中級クラスのスマートフォン上でもリアルタイム(90msの処理遅延が発生しますが、これは他の従来の音声コーデックと同程度です)で実行できます。次に、この生成モデルは、数千時間の音声データでトレーニングされ、WaveNetと同様に最適化されて、入力オーディオを正確に再作成します。

既存のコーデックとの比較
Lyraの開発時から、私たちの使命は、代替のビットレートデータの一部を使用して最高品質のオーディオを提供することでした。現在、ロイヤリティフリーのオープンソースコーデックOpusは、WebRTCベースのVOIPアプリケーションで最も広く使用されているコーデックであり、32kbpsのオーディオで、通常、透明な音声品質を実現します。つまり、元のコーデックと区別できません。ただし、Opusは6kbpsまでの帯域幅に制約のある環境で使用できますが、オーディオ品質の低下を示し始めます。他のコーデック(Speex、MELP、AMR)は、Lyraに匹敵するビットレートで動作できますが、それぞれが人工音の増加に悩まされ、ロボットのような声になります。

Lyraは現在3kbpsで動作するように設計されており、リスニングテストでは、Lyraがそのビットレートで他のコーデックよりも優れており、8kbpsのOpusと比較して、帯域幅を60%以上削減できることが示されています。Lyraは、帯域幅の条件が高ビットレートに対して不十分であり、既存の低ビットレートコーデックが十分な品質を提供しない場合に使用できます。

静かな環境
１）元の音声

２）Opus@6kbps

３）Lyra@3kbps

４）Speex@3kbps

騒がしい環境

１）元の音声

２）Opus@6kbps

３）Lyra@3kbps

４）Speex@3kbps

動画

１）元のMp4動画

２）Opus@6kbpsを使った動画

３）Lyra@3kbpsを使った動画

公平性の確保
他のMLベースのシステムと同様に、モデルは全ての人の音声で確実に機能するようにトレーニングする必要があります。オープンソースのオーディオライブラリを使用して、70以上の言語の話者で数千時間のオーディオデータを使用して、Lyraをトレーニングし、専門家やクラウドソーシングで募集した聴き手でオーディオ品質を検証しました。Lyraの設計目標の1つは、世界中からアクセスできる高品質のオーディオ体験を保証することです。そのため、Lyraは、コーデックが遭遇する可能性のある、あらゆる状況に対して堅牢であることを確認するために、無数の言語の話者を含む幅広いデータセットでトレーニングを行っています。

社会的影響と私たちがここからどこへ行くのか
Lyraのようなテクノロジーの影響は、短期的にも長期的にも広範囲に及んでいます。Lyraを使用すると、新興市場の何十億ものユーザーが効率的な低ビットレートコーデックにアクセスできるため、これまで以上に高品質のオーディオを利用できます。更に、Lyraはクラウド環境で使用できるため、様々なネットワークおよび性能の異なるデバイスを持つユーザーが互いに途切れなくチャットできます。LyraをAV1などの新しいビデオ圧縮テクノロジーと組み合わせると、56kbpsのダイヤルインモデムを介してインターネットに接続しているユーザーでも、ビデオチャットを行うことができます。

Google DuoはすでにMLを使用して音声の中断を減らしており、現在Lyraを展開して、非常に低い帯域幅の接続での音声通話の品質と信頼性を向上させています。GPUとTPUを介したアクセラレーションを調査しながら、テクノロジーの最大の可用性を確保するために、Lyraのパフォーマンスと品質を引き続き最適化します。また、これらのテクノロジーが低ビットレートの汎用オーディオコーデック(つまり、音楽やその他の非音声ユースケース)にどのように繋がるかについても研究を始めています。

謝辞
Jan Skoglund, Felicia Lim, Michael Chinen, Bastiaan Kleijn, Tom Denton, Andrew Storus, Yero Yeh (Chrome Media), Henrik Lundin, Niklas Blum, Karl Wiberg (Google Duo), Chenjie Gu, Zach Gleicher, Norman Casagrande, Erich Elsen (DeepMind).など、Lyraを可能にしてくれたすべての人に感謝します。