Live Transcribe：音声を文章にリアルタイム変換するAndroidアプリ

１．Live Transcribe：音声を文章にリアルタイム変換するAndroidアプリまとめ

・Live Transcribeは音声を文章にリアルタイム変換して聴覚障害者の日常会話への参加を助けるAndroidアプリ
・使い勝手の調査から研究を開始しており従来の自動音声認識より直観的な使い勝手を向上させている
・通信量の削減にも注意を払っており、回線の細い地域での使用や回線料金の負担を減らす工夫をしている

２．Live Transcribeとは？

以下、ai.googleblog.comより「Real-time Continuous Transcription with Live Transcribe」の意訳です。元記事は2019年2月4日、Sagar Savlaさんによる投稿です。動画内に出てくるGoogle研究者のDimitri Kanevskyさんは一切の時に聴覚を完全に失ったとの事で、Live TranscribeはDimitriさんにとって本当に夢見たアプリであったのだろうなと思い感動しました。

世界保健機関(WHO:World Health Organization)は、世界中に4億6,600万人の聴覚障害を持つ人がいると推定しています。聴覚障害を持つ人々にコミュニケーションと世界中の情報に包括的なアクセスを可能にする重要な技術は、自動音声認識(ASR:Automatic Speech Recognition)です。ASR技術によって、コンピュータは音声による会話を検出し、音声を文章に変換し、聴覚障害を持つ人も文章として会話を読む事ができるようになります。

GoogleのASRは、Youtubeでの自動字幕機能、Google Slidesでのプレゼンテーション、そしてスマートフォンでも使われています。しかし、ASRがここ数年で様々な機能改善を実現している一方で、聴覚障害や難聴を患う人々はまだ米国のCART、英国のPalantypist、または他の国々のSTTRのような手動による転記サービスに主に頼っています。

これらのサービスは法外に高価であり、多くの場合、前もって予約する必要があり、聴覚障害者および難聴者が緊急の会合や社会的な集まりに参加する機会を減少させます。私達はテクノロジーはこのギャップを埋めることができ、このコミュニティに力を与えることができると信じています。

本日、私達はLive Transcribeを発表します。Live Transcribeは、音声を文章に変換する自動転記サービスで、これにより聴覚障害者および難聴者を日常会話に参加しやすくする無料のAndroidサービスです。

Googleクラウド上で稼働するLive Transcribeは、会話にリアルタイムで字幕を付ける事が可能です。70以上の言語、話者数換算で世界人口の80％以上をフォローします。システムトレイのユーザー補助アイコンから直接、シングルタップで起動できます。

Live Transcribeの開発
以前のASRベースの字幕システムは、一般的に、高度な計算能力を持つコンピュータ高品質なインターネット回線が必要とされており、使い勝手も難しく、これらは自動転記サービスで字幕を作成する事の妨げになっていました。

これらの問題に対処し、合理的で正確でリアルタイムな字幕を実現するために、Live Transcribeは広範なユーザーエクスペリエンス(UX:使い勝手)調査の結果と、音声認識サーバーと途切れない通信を可能にする技術を組み合わせました。

更に、私達は音声処理サーバーとの通信がユーザーに過剰な回線使用料金を負わせる事がないようにする必要がありました。クラウド上のASRシステムを使えば、より高い音声認識精度が得られますが、私達はLive Transcribeが必要とするネットワーク回線容量を減らすことを望みました。

これを行うために、我々は以前発表した研究結果であるAudioSetに基づいて構築したオンデバイス(端末上で実行される)ニューラルネットワークベースの音声検出器を実装しました。

このニューラルネットワークは、過去に公開したVGGishモデルに似ています。音声を検出し、必要な時だけクラウドASRエンジンへ問い合わせるようにネットワーク接続を自動的で管理するので、長時間使用してもデータ使用量を最小限に抑える事ができるのです。

ユーザの使い勝手
Live Transcribeを可能な限り直感的に使用できるようにするために、Gallaudet大学(ギャローデット大学はアメリカの聴覚障害者のための大学)と提携して、ユーザーの使い勝手に関する共同研究を開始し、聴覚に障害を持つユーザーのニーズを確実に満たしながら、私達のテクノロジーの可能性を最大限に引き出しました。

私達は、「聴覚情報や字幕を繰り返し表示するためには何をどのように用いるべきか？」から調査を開始しました。コンピュータ、タブレット、スマートフォン、さらには小型のプロジェクタの使用も検討しました。最終的に、私達は普及台数と処理能力の増大ペースに着目し、スマートフォンに焦点を合わせることにしました。

この決定後、私達はもう一つの重要な問題に取り組む必要がありました：字幕の信頼度を示すことです。私達は、単語レベルまたはフレーズレベルで信頼度を示す事(これは伝統的にユーザーの役に立つと考えられていました)は本当に必要があるかどうかから調査を開始しました。

転写の信頼度の表現。黄色は信頼度が高く、緑色は中程度、そして青は信頼度が低いです。白色は信頼度が計測される前の新しい文章です。左側ではフレーズごと、右側では単語ごとに信頼度を着色しています。私達の研究では、着色は何ら価値を提供する事はなく、単にユーザーの気を散らすだけという結果になりました。

この分野におけるこれまでのUXの研究を補強する私たちの研究によれば、字幕は着色がない時が最も読みやすくなります。そのため、Live Transcribeは文章を読みやすくする事に重点を置き、代わりに他の手段で信頼度を補足する事にしました。

もう一つのユーザにとって有用な情報は現在の周辺環境の雑音レベルです。カクテルパーティー効果(人間が騒がしいパーティー会場でも興味のある会話のみを労なく聞き取れる事)として知られている、騒々しい部屋で話されている言葉を認識する事はコンピューターにとって難しい問題です。

これに対処するために、私達は「周囲の雑音」と「話者の声」の大きさを視覚化する比較手法を考えました。

これは、マイクがスピーカーから入ってくる音声をどれだけうまく受信しているかについての情報を即座に使用者に与え、使用者がスマートフォンのマイクの位置を調整することを可能にします。

話者の声の大きさと周辺の雑音の大きさは右上の2つの同心円で表現されています。内側の明るい円は周辺の雑音の大きさを示し、聴覚障害者に現在の環境がどれほど騒々しいかを伝えます。外側の円は、話者の声をどの程度上手く拾えているかを示しています。二つの円により音量の相対的な差を直感的に示しています。

今後の取り組み
モバイルベースの自動音声書き起こしシステム(AST:Automatic Speech Transcription)における将来の可能性には、オンデバイス認識(完全にスマートフォン内のみで音声認識をする事)、話者分離(複数話者が話している状況で個別に話者を認識する事)、および音声強調があります。

字幕だけに頼る事は、誤解を招く可能性があります。Gallaudet大学との共同研究の結果、字幕を音声検出や雑音インジケーターのような他の聴覚信号と組み合わせることで、ユーザーのコミュニケーションに明らかに意味のある変化をもたらせる事が示されました。

Live TranscribeはPlayストアで段階的に公開される予定です。全てのPixel 3スマートフォンには最新のアップデートでプレインストールされました。

Live Transcribeは[ユーザー補助の設定]から有効にすることができます。また、The Keyword(Googleのブログ)でLive Transcribeについてもっと読むことができます。

謝辞
Live Transcribeは、研究者のChet Gnegy、Dimitri Kanevsky、Justin S. Paul、及びAndroidのアクセシビリティチームのメンバーであるBrian Kemler、Thomas Lin、Alex Huang、Jacqueline Huang、Ben Chung、Richard Chang、I-ting Huang、Jessie Lin、Ausmus Chang、 Weiwei Wei、Melissa Barnhart、Bingying Xiaとの共同作業で開発されました。また、Gallaudet大学のChristian Vogler、Norman Williams、Paula Tuckerの親密なパートナーシップにも感謝します。