Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)

１．Live Caption:オンデバイスで音声コンテンツに字幕を付与(2/2)まとめ

・Live Captionを長時間駆動させる事を可能にするために様々な工夫が行われている
・例えばASR用のRNN-Tエンジンは電力消費が激しいので発話が確認された最中のみ実行される
・今後は複数言語の話者が混在する状況での認識精度と一貫性の改善に力を入れていく予定

２．Live Captionに使われている技術

以下、ai.googleblog.comより「On-Device Captioning with Live Caption」の意訳です。元記事の投稿は2019年10月29日、Michelle Tadmor-RamanovichさんとNadav Barさんによる投稿です。

音声認識では、音声イベント検出のために行われた以前の研究を活用します。この研究ではAudioSetデータセットをベースに構築されたモデルを使用しています。

この音声イベント検出モデルは、一般的な音声イベントを認識してラベルを生成するだけでなく、発話中か否かの検出にも使用されます。完全自動音声認識(ASR:Automatic Speech Recognition)を常時起動するとメモリとバッテリーの使用量が激しいため、ASR用のRNN-Tエンジンは、発話が確認された最中のみ実行されます。たとえば、音楽が検出され、音声ストリーム内にスピーチが存在しない場合、[MUSIC]ラベルが画面に表示され、ASRモデルはアンロードされます。ASRモデルは、音声がオーディオストリームに存在する事が再び確認された場合にのみメモリにロードされます。

Live Captionの使い勝手をもっと良くするためには、長時間連続して実行できる必要があります。これを実現するために、Live CaptionのASRモデルは、フルサイズの音声認識モデルと比較して電力消費を50%に削減しています。これはneural connection pruning(訳注：ニューラル間の接続を選別して刈り込む手法)などのいくつかの手法を使用して、エッジデバイス向けに最適化する事で実現しています。

これにより、このモデルはエネルギー効率が大幅に向上しますが、ビデオのキャプション、短い問い合わせ音声の認識、回線容量が狭いバンド帯での電話音声など、さまざまなユースケースで優れたパフォーマンスを発揮します。

テキストベースの句読点モデルは、クラウド上で実行される同等モデルよりも小さなアーキテクチャを使用しています。オンデバイスで持続的に実行する用途に最適化され、TensorFlow Liteランタイムを使用して量子化およびシリアル化されました。

キャプションが形成されると、音声認識の結果が1秒間に数回急速に更新されます。計算リソースを節約し、スムーズなユーザーエクスペリエンスを提供するために、句読点予測は、最後に認識された文のテキストの末尾で実行され、次の更新されたASR結果がそのテキストを変更しない場合、以前の句読点の結果は保持および再利用されます。

楽しみな未来
Live Captionは、Pixel 4の英語版で利用できるようになり、Pixel 3およびその他のAndroidデバイスでもまもなく利用可能になります。他の言語へのサポートを拡張し、キャプションの認識精度と一貫性を改善し、フォーマットをさらに改善することにより、この機能をより多くのユーザーに提供することを楽しみにしています。特に複数言語の話者が混在する状況での認識精度と一貫性の改善に力を入れています。

訳注：Googleは以前から家庭内に複数言語の話者が混在する状況に良く言及していて、マルチリンガルな家庭なんてそんなに多くのニーズが本当にあるのだろうかと思っていたのですが、良く考えてみれば通訳が必要な場面や海外旅行などで大活躍する機能ですよね。

謝辞
コアチームにはRobert Berry, Anthony Tripaldi, Danielle Cohen, Anna Belozovsky, Yoni Tsafir, Elliott Burford, Justin Lee, Kelsie Van Deman, Nicole Bleuel, Brian Kemler, そして Benny Schlesingerが含まれます。

Googleスピーチチーム、特にQiao Liang, Arun Narayanan, 及びRohit Prabhavalkarに、ASRモデルに関する洞察に満ちた仕事に感謝します。またGoogle Brain TeamのChung-Cheng Chiuにも同様に感謝します。

Dan EllisとJustin Paulは音声認識モデルの統合に協力してくれました。Tal Remezは句読点モデルの開発に協力してくれました。

Kevin RocardとEric LaurentはAndroidオーディオキャプチャAPIのサポートを提供してくれました。Eugenio Marchiori, Shivanker Goel, Ye Wen, Jay Yoo, Asela Gunawardana, そしてTom HumeはAndroidインフラストラクチャの作業を支援してくれました。