Smart Scroll:録音データから探している音声を捜しやすくする(2/2)

AI

1.Smart Scroll:録音データから探している音声を捜しやすくする(2/2)まとめ

・どのセクションを有益でユニークなものか決定するために2つのモデルを組み合わせた
・高評価のキーワードを持つ最高スコアのセクションを重要なセクションと見なした
・スマートスクロールでRecorderが改善され関心のあるセクションを迅速に表示可能になった

2.Smart Scrollの概要

以下、ai.googleblog.comより「Navigating Recorder Transcripts Easily, with Smart Scrolling」の意訳です。元記事の投稿は2020年11月24日、Itay Inbarさんによる投稿です。

アイキャッチ画像のクレジットPhoto by Taylor Wilcox on Unsplash

セクションの重要性の評価
次のタスクは、どのセクションを有益でユニークなものとして強調するかを決定することです。このタスクを解決するために、前述の2つのモデルを再度組み合わせて、セクションごとに2つの異なる重要度スコアを生成します。セクション内のすべてのキーワードのTF-IDFスコアを取得し、セクション内のそれぞれの出現数で重み付けした後、これらの個々のキーワードスコアを合計することにより、最初のスコアを計算します。

セクション内のテキストを双方向トランスフォーマーモデルに通して2番目のスコアを計算します。このモデルは、セクション評価タスクでもトレーニングされています。両方のモデルのスコアが正規化されてから結合され、セクションスコアが生成されます。


スマートスクロールの処理概要

いくつかの課題
スマートスクロールの開発における重要な課題は、セクションまたはキーワードが重要であるかどうかをどのように識別するかでした。ある人にとって非常に重要なことは、別の人にとってはそれほど重要ではない可能性があります。鍵となった考えは、セクションから役立つキーワードを抽出できる場合にのみ、セクションを強調表示することでした。

これを行うために、高評価のキーワードを持つ最高スコアのセクションを選択するようにしました。強調表示させるセクションの数は録音の長さに比例させました。スマートスクロールでは、セクション内の一意の情報をより適切に表現している場合、キーワードはより高く評価されます。

この基準を理解するようにモデルをトレーニングするには、このタスクに合わせたラベル付きトレーニングデータセットを準備する必要がありました。熟練した評価者のチームと協力して、少数の例にこの目的に沿ったラベル付けを行い、ラベルの品質を評価し、意図したものから逸脱した場合に評価者に指示するための初期データセットを確立しました。ラベル付けプロセスが完了したら、ラベル付けされたデータを手動で確認し、必要に応じてラベルを修正して、重要性の定義に合わせました。

この限定的なラベル付きデータセットを使用し、モデル品質の初期指標を確立するために自動でモデル評価を行いました。これは、モデル品質を計測する精度の低い代替手段として使用され、モデルのパフォーマンスをすばやく評価し、アーキテクチャと適用する経験則を迅速に変更できるようにしました。

一旦、指標が満足のいくものになったら、Recorderの予想される使用事例を表現する慎重に選択されたサンプルに対して、より正確な手動評価プロセスを利用しました。

これらのサンプルを使用して、信頼性の高いモデル品質評価を使用して、モデルの経験則に基づくパラメーターを微調整し、目的のパフォーマンスレベルに到達させました。

実行時間の改善
Recorderの最初のリリース後、スマートスクロール機能の使いやすさとパフォーマンスを向上させる方法を学ぶために一連のユーザー調査を実施しました。多くのユーザーは、記録が終了するとすぐに探索用キーワードと強調表示機能が利用可能になることを期待していることがわかりました。

上で説明した計算を順に行うと、長い録音では計算にかなりの時間がかかる可能性があるため、録音時にこの計算を少しずつ部分的に処理する解決策を考案しました。録音中、各セクションは録音されるとすぐに処理され、中間結果がメモリに保存されます。記録が完了すると、Recorderは中間結果を集約します。

Pixel 5で実行する場合、このアプローチにより、1時間の録音(約9000単語)の平均処理時間が1分40秒からわずか9秒に短縮され、出力結果は同じになります。

まとめ
Recorderの目標は、録音されたコンテンツを簡単に捜索出来るようにして使いやすくして、ユーザーの使い勝手を向上させることです。

私達は従来のML機能により、録音内容に基づいてタイトルを自動的に提案する事やユーザーが録音された音や文書を検索できるようにする事を、実現し、この方向ですでに大きな進歩を遂げています。

スマートスクロールは、Recorderの使い勝手を更に改善する追加のテキスト案内機能を提供し、ユーザーが長時間の録音であっても、関心のあるセクションをすばやく表示できるようにします。

謝辞
Bin Zhang, Sherry Lin, Isaac Blankensmith, Henry Liu‎, Vincent Peng‎, Guilherme Santos‎, Tiago Camolesi, Yitong Lin, James Lemieux, Thomas Hall‎, Kelly Tsai‎, Benny Schlesinger, Dror Ayalon, Amit Pitaru, Kelsie Van Deman, Console Chen, Allen Su, Cecile Basnage, Chorong Johnston‎, Shenaz Zack, Mike Tsao, Brian Chen, Abhinav Rastogi, Tracy Wu, Yvonne Yang‎。

3.Smart Scroll:録音データから探している音声を捜しやすくする(2/2)関連リンク

1)ai.googleblog.com
Navigating Recorder Transcripts Easily, with Smart Scrolling

コメント

タイトルとURLをコピーしました