Lyra：音声圧縮用の新しい超低ビットレートコーデック(1/2)

１．Lyra：音声圧縮用の新しい超低ビットレートコーデック(1/2)まとめ

・音声通話やビデオ通話には送信信号を効率的に圧縮するコーデックが重要
・低速なネットワークでも音声通信を可能にする音声コーデックLyraを開発
・Lyraは生成モデルを利用して最先端の波形コーデックと同等の高品質を実現

２．Lyraとは？

以下、ai.googleblog.comより「Lyra: A New Very Low-Bitrate Codec for Speech Compression」の意訳です。元記事の投稿は2021年2月25日、Alejandro LuebsさんとJamieson Brettleさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jason Rosewell on Unsplash

音声通話やビデオ通話を介してオンラインで他の人とつながることは、ますます日常生活の一部になっています。これを可能にするWebRTCのようなリアルタイム通信フレームワークは、送信または保存のために信号をエンコード(またはデコード)するための効率的な圧縮技術、すなわちコーデック(codecs)に依存しています。何十年にもわたってメディアアプリケーションの重要な部分であるコーデックは、帯域幅を大量に消費するアプリケーションが効率的にデータを送信できるようにし、いつでもどこでも高品質の通信を行えるようにする事が期待されるようになりました。

そのため、ビデオとオーディオの両方のコーデックを開発する際の継続的な課題は、より少ないデータを使用して品質を向上させ、リアルタイム通信の遅延を最小限に抑えることです。ビデオはオーディオよりもはるかに帯域幅を消費しているように見えるかもしれませんが、最新のビデオコーデックは、現在使用されている一部の音声用高品質コーデックよりも低いビットレートに達する可能性があります。

低ビットレートのビデオコーデックと音声コーデックを組み合わせると、低帯域幅のネットワークでも高品質のビデオ通話体験を提供できます。しかし歴史的には、オーディオコーデックのビットレートが低いほど、音声信号の明瞭度が低くなり、機械的な音声に聞こえてしまいます。更に、一貫した高品質の高速ネットワークにアクセスできる人もいますが、このレベルの接続は普遍的ではなく、接続が良好な地域の人でさえ、品質が低く、帯域幅が狭く、ネットワーク接続が混雑している場合があります。

この問題を解決するために、最も低速なネットワークでも音声通信を利用できるようにする、高品質で非常に低ビットレートの音声コーデックであるLyraを開発しました。これを行うために、数千時間のデータでトレーニングされたモデルで機械学習(ML:Machine Learning)の進歩を活用しながら、従来のコーデック技術を適用して、音声信号を圧縮および送信するための新しい方法を開発しました。

Lyraの概要
Lyraコーデックの基本的なアーキテクチャは非常にシンプルです。特徴、または特徴的な音声属性は、40ミリ秒ごとに音声から抽出され、送信のために圧縮されます。特徴自体は、人間の聴覚反応をモデルにしているため、知覚的関連性のために伝統的に使用されてきた、さまざまな周波数帯域での音声エネルギーを表す数値のリストであるログメルスペクトログラム(log mel spectrograms)です。一方、生成モデルはこれらの特徴を使用して音声信号を再現します。この意味で、LyraはMELPなどの他の従来のパラメトリックコーデックと非常によく似ています。

ただし、受信側で信号を再作成するために使用できる音声クリティカルパラメータから単純に抽出する従来のパラメトリックコーデックは、低ビットレートを実現しますが、多くの場合、ロボット的で不自然に聞こえます。これらの欠点により、新世代の高品質オーディオ生成モデルが開発され、信号を区別できるだけでなく、まったく新しい信号を生成できるようになることで、この分野に革命をもたらしました。 DeepMindのWaveNetは、多くの人が来る道を開いたこれらの生成モデルの最初のものでした。さらに、現在Duoで使用されている生成モデルベースのパケット損失隠蔽システムであるWaveNetEQは、このテクノロジーを実際のシナリオでどのように使用できるかを示しています。

Lyraによる圧縮への新しいアプローチ
これらのモデルを比較対象として設定し、最小限のデータを使用して音声を再構築できる新しいモデルを開発しました。Lyraは、これらの新しい自然なサウンドを生成モデルのパワーを利用して、パラメトリックコーデックの低ビットレートを維持しながら、今日のほとんどのストリーミングおよび通信プラットフォームで使用されている最先端の波形コーデックと同等の高品質を実現します。波形コーデックの欠点は、信号をサンプルごとに圧縮して送信することでこの高品質を実現している事です。このため、より高いビットレートが必要になりますが、ほとんどの場合、自然な響きのスピーチを実現するために必要なレートではありません。