CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(3/3)

１．CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(3/3)まとめ

・生徒モデルをマッチングさせる手法はグローバルとローカルの２種があるがローカルを使った
・パラ言語情報の中間特徴表現は徐々に増加し、次に減少し、再び増加する二峰性分布であった
・このパターンは網膜画像で学習したネットワークの中間特徴表現を探索したときにも見られた

２．双峰性の観測

以下、ai.googleblog.comより「TRILLsson: Small, Universal Speech Representations for Paralinguistic Tasks」の意訳です。元記事は2022年3月3日、Joel Shorさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Mediamodifier on Unsplash

私達は「固定サイズの入力を持つ生徒モデル」と「可変サイズの入力を持つ教師モデル」の出力をマッチングさせることを目標に知識蒸溜を行いました。

その際、生徒の蒸留ターゲットを生成する方法が2つあります。グローバルマッチングとローカルマッチングです。

グローバルマッチングは、オーディオクリップ全体に対してCAP12によるembeddingsを生成することで蒸留ターゲットを生成します。その後、生徒がオーディオの小さな断片(例えば2秒)を蒸留ターゲットにマッチングすることを要求します。

ローカルマッチングでは、生徒ネットワークが、生徒が見ている音声の小さな断片だけの平均的なCAP12 embeddingsに一致することを要求します。私たちの研究では、ローカルマッチングに焦点を当てました。

2種類の蒸留ターゲットの生成法
左：グローバルマッチングでは、音声全体を平均化したCAP12 embeddingsを使用し、各局所的な断片を蒸留ターゲットにします
右：ローカルマッチングでは、局所的な音声のみ使って平均化したCAP12 embeddingsを蒸留ターゲットとして使用します

双峰性の観測と今後の方向性

パラ言語情報は、予想外な事に分布が二峰性である事を示しました。

500ミリ秒で断片化した入力データで動作するCAPモデルと、全データを入力とするConformerモデルの2つでは、中間特徴表現はパラ言語情報が徐々に増加し、次に減少し、再び増加し、最後に出力層に向かってこの情報が失われていきます。驚くべきことに、このパターンは網膜画像で学習したネットワークの中間特徴表現を探索したときにも見られます。

CAPへの500ms入力では、パラ言語情報のレイヤー間分布が比較的顕著に二峰性を示す事がわかります。

完全入力のconformerモデルのレイヤーのうち2つは、パラ言語情報の分布が二峰性であることを示しています。

より小さく、より速いパラ言語音声のモデルが、音声認識、音声合成、ユーザーの意図の理解などの新しいアプリケーションを開放することを期待しています。

また、より小さなモデルは解釈しやすく、研究者が音声のどの側面がパラ言語学にとって重要であるかを理解できるようになることも期待しています。最後に、私たちのオープンソース化された音声表現がコミュニティによって利用され、私的あるいは小規模なデータセットにおけるパラ言語音声タスクやユーザ理解を向上させることができればと願っています。

謝辞

共著者のAren Jansen, Wei Han, Daniel Park, Yu Zhang そしてSubhashini Venugopalan には、このプロジェクトで懸命に働き、創造性を発揮してくれたことに感謝します。

また、BigSSLの作業のための大規模な共同研究のメンバーにも感謝したいと思います。このメンバーなしでは、これらのプロジェクトは実現できませんでした。このチームには、James Qin, Anmol Gulati, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Françoise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang, および Yonghui Wuの各氏が含まれます。