RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(2/2)

１．RNN-T:全てをニューラルネットワークで実装したオンデバイス音声認識の実現(2/2)まとめ

・RNN-Tモデルは従来モデルに比べて1/5のサイズ圧縮に成功
・更にTensorFlow Liteのモデル最適化ツールキットで1/4にサイズを圧縮
・最終的に1/4のサイズと4倍の速度を達成しモデルサイズも80MBに

２．オンデバイスで音声認識するための工夫

以下、ai.googleblog.comより「An All-Neural On-Device Speech Recognizer」の意訳です。元記事の投稿は2019年3月12日、Johan Schalkwykさんによる投稿です。

オフライン音声認識
従来の音声認識エンジンでは、前回説明した音響モデル、発音モデル、および言語モデルは、大きな検索グラフにまとめられています。検索グラフの先端(edge)には音声単位で確率がラベル付けされています。

音声波形が識別器に提示されると、デコーダは、このグラフから最も確からしい経路を探し、その経路をたどって単語列を読み出します。

通常、デコーダは、基礎となるモデルの有限状態トランスデューサ（FST:Finite-State Transducers）と見なされます。これは洗練された復号化手法ですが、検索グラフが非常に大きい約2GB(2048MB)になってしまいます。2048MBは携帯電話で簡単に取り扱えるサイズではないため、この方法ではネットワーク通信をしてクラウド上で音声認識を行う必要があります。

しかし、私達は音声認識の有用性を向上させるために、新しいモデルをデバイス上で直接動作させ、通信ネットワークを経由する事による待ち時間の増加と信頼性の低下を回避しようとしました。そのため、私たちのエンドツーエンドのアプローチでは、大きなデコーダグラフを検索する必要はありません。その代わりに、デコーダは単一のニューラルネットワークを介したビームサーチで構成されています。

私たちがトレーニングしたRNN-Tは、従来のクラウドベースのモデルと同等の精度を提供しますが、わずか450MBであり、パラメータをよりスマートに使用し、情報をより密に詰め込んでいます。しかし、現在のスマートフォンでも450MBは非常にサイズが大きく、このような大きなサイズのファイルをネットワーク経由でダウンロードするのは非常に時間がかかる可能性があります。

私達はパラメータ量子化とハイブリッドカーネル技術を使用して、モデルサイズをさらに縮小しました。これらの技術は2016年に開発され、現在はTensorFlow Liteライブラリのモデル最適化ツールキットを通じて公開されています。

モデルのパラメータ量子化で、浮動小数点を使ったモデルと比較してサイズを1/4に圧縮し、4倍の高速化を実現しました。これにより私達のRNN-TモデルはシングルコアのCPU上で実行されていてもリアルタイムスピーチよりも速く実行でき、圧縮後の最終モデルサイズは80MBになりました。

私達の新しいオールニューラルオンデバイスGboard音声認識システムは、当初はアメリカ英語のみを対象とし、全てのPixelスマートフォンに搭載されます。業界の動向を考えると、特殊なハードウェアとアルゴリズムの改良により、今回発表した技術がより多くの言語で、そしてより広い分野のアプリケーションで間もなく採用されることを願っています。

謝辞
Raziel Alvarez、Michiel Bacchiani、Tom Bagby、Françoise Beaufays、Deepti Bhatia、Shuo-yiin Chang、Zhifeng Chen、Chung-Chen Chiu、Yanzhang He、Alex Gruenstein、Anjuli Kannan、Bo Li、Wei Li、Qiao Liang、Ian McGraw、Patrick Nguyen、Ruoming Pang、Rohit Prabhavalkar、Golan Pundak、Kanishka Rao、David Rybach、Tara Sainath、Haşim Sak、June Yuan Shangguan、Matt Shannon、Mohammadinamul Sheik、Khe Chai Sim、Gabor Simko、Trevor Strohman、Mirkó Visontai、Ron Weiss、Yonghui Wu、Ding Zhao、Dan Zivkovic、そしてYu Zhang。