Recorder:Pixelスマートフォン用の検索可能な録音アプリ(1/2)

Recorder:Pixelスマートフォン用の検索可能な録音アプリ(1/2)

1.Recorder:Pixelスマートフォン用の検索可能な録音アプリ(1/2)まとめ

・録音音声をリアルタイムで書き起こしてタグ付けし、検索しやすくするPixel用アプリが公開
・Recorderと名付けられたこのアプリはオンデバイスで動作する機械学習で実現されている
・音声の内容を色で視覚化する機能もあり最も支配的なサウンドを単一の色で表現する

2.Recorderとは?

以下、ai.googleblog.comより「The On-Device Machine Learning Behind Recorder」の意訳です。元記事の投稿は2019年12月18日、Itay InbarさんとNir Shemyさんによる投稿です。

Googleは過去20年にわたって、検索を通じて人々が情報に広くアクセスできるようにしてきました。テキスト情報、写真、ビデオから地図や求人情報まで様々な情報です。

しかし、現実世界の情報の多くは音声で伝えられます。 それゆえ、多くの人々が会話、インタビュー、講義などから重要な情報を捕捉するために音声レコーダーを使用しています。しかし、関心のある情報がどの位置に録音されているかを特定するため何時間もの録音データを調べる事は非常に困難です。

もし、必要なときに必要な関連情報を直感的に見つけられるように、長時間の録音データをリアルタイムで自動的に書き起こし、タグ付けしてくれる機能があったとしたらどうでしょうか?

これを実現するため、私達はPixelスマートフォン用の新しい録音アプリ「Recorder」を公開しました。

これは、オンデバイスの機械学習の最近の進歩を活用して会話を書き起こします。録音された音声のタイプ(音楽やスピーチなどの幅広いカテゴリから、拍手、笑い声、口笛などの特定の音まで)を検出および識別し、ユーザーが関心のある個所をすばやく見つけて抽出できるように録音をインデックス化します。これらの機能は全て、端末上で実行されるため、インターネット接続を必要としません。

転記
Recorderは、今年初めに発表された改善に基づいて、デバイス上の自動音声認識モデルを使用してリアルタイムで音声を書き起こします。このモデルは長時間(数時間)の音声録音を確実に転写できるようにし、同時に音声認識モデルによって計算されたタイムスタンプに単語をマッピングして会話のインデックスを作成できるようにしています。この機能はRecorderの多くのスマートな機能を実現するための重要な機能です。

これにより、ユーザーは転記された文章内の単語をクリックして、再生をその場所から開始したり、単語を検索して発声された録音の正確な位置にジャンプする事ができます。

音声を分類してコンテンツを視覚化して記録する
録音した転記情報を文章として表示すると特定の単語の検索などが出来て便利です。しかし、特定の瞬間や音に基づいて録音データを視覚的に検索する方が便利な場合があります。(特に非常に長い録音の場合)

これを可能にするために、Recorderは色付きの波形として視覚的にオーディオを表す事ができます。各色はそれぞれ異なる音声カテゴリに関連付けられています。

これは、2つのこれは、研究を組み合わせる事で実現されています。
・CNNを使用してオーディオサウンドを分類する研究(例えば、犬の鳴き声や楽器の演奏を識別)
・以前に公開されたデータセットであるAudioSetを使用して、個々の音声フレーム内の音声イベントを分類する研究

もちろん、かなりのケースで、多くの音が同時に表示される可能性があります。

オーディオを明確に視覚化するために、各波形バーを特定の時間枠(この場合は50ms単位)で最も支配的なサウンドを表現する単一の色で色付けすることにしました。

色付けされた波形により、ユーザーは録音データ内のコンテンツの種類を理解し、増え続けるオーディオライブラリから目的の音声データを探しだすためのガイドにする事ができます。このように音声データの内容を視覚的にユーザーに提供する事で、ユーザーは録音データ内のオーディオイベントを探しだす事ができるのです。

 

3.Recorder:Pixelスマートフォン用の検索可能な録音アプリ(1/2)関連リンク

1)ai.googleblog.com
The On-Device Machine Learning Behind Recorder