Recorder：Pixelスマートフォン用の検索可能な録音アプリ(1/2)

１．Recorder：Pixelスマートフォン用の検索可能な録音アプリ(1/2)まとめ

・録音音声をリアルタイムで書き起こしてタグ付けし、検索しやすくするPixel用アプリが公開
・Recorderと名付けられたこのアプリはオンデバイスで動作する機械学習で実現されている
・音声の内容を色で視覚化する機能もあり最も支配的なサウンドを単一の色で表現する

２．Recorderとは？

以下、ai.googleblog.comより「The On-Device Machine Learning Behind Recorder」の意訳です。元記事の投稿は2019年12月18日、Itay InbarさんとNir Shemyさんによる投稿です。

Googleは過去20年にわたって、検索を通じて人々が情報に広くアクセスできるようにしてきました。テキスト情報、写真、ビデオから地図や求人情報まで様々な情報です。

しかし、現実世界の情報の多くは音声で伝えられます。それゆえ、多くの人々が会話、インタビュー、講義などから重要な情報を捕捉するために音声レコーダーを使用しています。しかし、関心のある情報がどの位置に録音されているかを特定するため何時間もの録音データを調べる事は非常に困難です。

もし、必要なときに必要な関連情報を直感的に見つけられるように、長時間の録音データをリアルタイムで自動的に書き起こし、タグ付けしてくれる機能があったとしたらどうでしょうか？

これを実現するため、私達はPixelスマートフォン用の新しい録音アプリ「Recorder」を公開しました。

これは、オンデバイスの機械学習の最近の進歩を活用して会話を書き起こします。録音された音声のタイプ(音楽やスピーチなどの幅広いカテゴリから、拍手、笑い声、口笛などの特定の音まで)を検出および識別し、ユーザーが関心のある個所をすばやく見つけて抽出できるように録音をインデックス化します。これらの機能は全て、端末上で実行されるため、インターネット接続を必要としません。

転記
Recorderは、今年初めに発表された改善に基づいて、デバイス上の自動音声認識モデルを使用してリアルタイムで音声を書き起こします。このモデルは長時間(数時間)の音声録音を確実に転写できるようにし、同時に音声認識モデルによって計算されたタイムスタンプに単語をマッピングして会話のインデックスを作成できるようにしています。この機能はRecorderの多くのスマートな機能を実現するための重要な機能です。

これにより、ユーザーは転記された文章内の単語をクリックして、再生をその場所から開始したり、単語を検索して発声された録音の正確な位置にジャンプする事ができます。