Recorder:Pixelスマートフォン用の検索可能な録音アプリ(2/2)

学習手法

1.Recorder:Pixelスマートフォン用の検索可能な録音アプリ(2/2)まとめ

・Recorderは音声を50ms単位で小さく分析し正確に音声イベントの開始時間と終了時間を特定している
・音声分類結果が目まぐるしく変わらないようにadaptive-size median filteringを使っている
・オンデバイスのpart-of-speech-taggerを使用し一般的な名詞と固有名詞を検出してタグ付けを行っている

2.Recorderを実現する機械学習

以下、ai.googleblog.comより「The On-Device Machine Learning Behind Recorder」の意訳です。元記事の投稿は2019年12月18日、Itay InbarさんとNir Shemyさんによる投稿です。

Recorderは、部分的に重複する長さ960msのオーディオフレームを50ms間隔で処理するスライディングウィンドウを実装しており、「フレーム内の音声がどの種類の音声であるか?」の確率を表すシグモイドスコアベクトルを出力します。

システムの精度を最大化し、正しく音を分類するために、シグモイドスコアにしきい値処理メカニズムと組み合わせた線形化プロセスを適用します。50ms単位で小さく960msの音声データを分析するこのプロセスにより、連続する960msの大きな音声データをそのまま処理する手法するよりも、ピンポイントで正確に音声イベントの開始時間と終了時間を特定できます。


モデルは各音声フレームを個別に分析するため、音声を分類した結果が目まぐるしく変わる可能性があります。これは、モデルの一番新しい出力にアダプティプサイズメディアンフィルタリング(adaptive-size median filtering)技術を使う事により解決され、平滑化された連続出力を提供する事ができます。このプロセスはリアルタイムで継続的に実行されるため、非常に厳しい電力消費制限を満たす必要があります。

タイトル用タグの提案
Recorderは、録音が完了すると、アプリが最も記憶に残るコンテンツを表すと見なした3つのタグを提案し、ユーザーが意味のあるタイトルをすばやく作成できるようにします。

Recorderは、録音が終了したときにこれらのタグをすぐに提案できるようにするため、録音中に転記した内容を分析します。

まず、Recorderは、文中の用語の出現数と文法的な役割をカウントします。エンティティ(識別名など)と見なされる用語は大文字で表記されます。次に、オンデバイスのpart-of-speech-taggerを使用します。これは文法的な役割に従って文の各単語にラベル付けするモデルです。

part-of-speech-taggerは、一般的な名詞と固有名詞を検出します。これらの名詞は、ユーザーにとって記憶に残りやすい単語であると推測されます。

Recorderは、ユニグラムとバイグラムの2つの手法を用いて用語抽出をサポートする事前スコアテーブルを利用します。

スコアを生成するために、会話型データでブーストされた決定木をトレーニングし、ドキュメントの単語の類似度や特異性などのテキスト特徴を利用しました。 最後に、ストップワード(theやaなどの処理対象にする単語)とスワーワード(swear words:悪口など)のフィルタリングが適用され、文書の内容を簡単に表現するタグが出力されます。


タグ抽出パイプラインの構造

結論
Recorderは、ユーザーのプライバシーを確保するためにモデルをデバイス上で実行し、最新のオンデバイス機械学習の研究成果の一部を有用な機能として取り入れました。機械学習の研究とユーザーのニーズの間の前向きなフィードバックループは、ソフトウェアをさらに便利にするための刺激的な機会となりました。全ての人々がアイデアや会話により簡単にアクセスおよび検索する事が可能になる将来の研究に興奮しています。

謝辞
この機能の開発と実現に重要な役割を果たしてくれたDror Ayalonに感謝します。彼がいなくてはこのブログも投稿できませんでした。このプロジェクトに協力してくれたすべてのチームメンバーと協力者にも感謝したいと思います。Amit Pitaru, Kelsie Van Deman, Isaac Blankensmith, Teo Soares, John Watkinson, Matt Hall, Josh Deitel, Benny Schlesinger, Yoni Tsafir, Michelle Tadmor Ramanovich, Danielle Cohen, Sushant Prakash, Renat Aksitov, Ed West, Max Gubin, Tiantian Zhang, Aaron Cohen, Yunhsuan Sung, Chung-Ching Chang, Nathan Dass, Amin Ahmad, Tiago Camolesi, Guilherme Santos‎, Julio da Silva, Dan Ellis, Qiao Liang, Arun Narayanan‎, Rohit Prabhavalkar, Benyah Shaparenko‎, Alex Salcianu, Mike Tsao, Shenaz Zack, Sherry Lin, James Lemieux, Jason Cho, Thomas Hall, Brian Chen, Allen Su, Vincent Peng‎, Richard Chou‎, Henry Liu‎, Edward Chen, Yitong Lin, Tracy Wu, Yvonne Yang.

3.Recorder:Pixelスマートフォン用の検索可能な録音アプリ(2/2)関連リンク

1)ai.googleblog.com
The On-Device Machine Learning Behind Recorder

コメント

タイトルとURLをコピーしました