CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(1/3)

１．CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(1/3)まとめ

・機械システムは口調、感情、マスク有無など、パラ言語的な側面に苦戦している
・最先端モデルは超大規模なモデルであるためモバイル機器上の実行は現実的でない
・6つの超大型モデルを探索し第12層が従来の特徴表現を大幅に上回ることを見出した

２．CAP12とは？

以下、ai.googleblog.comより「TRILLsson: Small, Universal Speech Representations for Paralinguistic Tasks」の意訳です。元記事は2022年3月3日、Joel Shorさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Mediamodifier on Unsplash

近年、自動音声認識(ASR)などの語彙タスクで劇的な改善が見られています。しかし、機械システムは、口調、感情、マスクをしているかどうかなど、パラ言語的(paralinguistic、音量やイントネーションなどを使って、意味合いを変更したり感情を伝えたりする事)な側面を理解するのにまだ苦労しています。

このような側面の理解は、機械聴覚に残された難問の一つです。さらに、最先端の成果は、しばしば、非公開データで学習した超大規模なモデルから得られるため、モバイル機器上で実行する事や一般に公開される事は現実的ではありません。

ICASSP2022に出す予定の「Universal Paralinguistic Speech Representations Using Self-Supervised Conformers」では、YT-U学習データセットで自己教師学習した6億パラメータモデルの12層目であるCAP12を紹介します。

私達は、CAP12モデルが、パラ言語ベンチマークにおいて、時には大幅に、ほぼ全ての先行手法を上回ることを実証しました。(先行手法はしばしばタスクに特化したものであるにもかかわらず)

「TRILLsson: Distilled Universal Paralinguistic Speech Representations」では、小型で高性能な一般公開されたTRILLssonモデルを紹介します。ここでは、高性能なCAP12モデル比で90-96%の性能を維持しながら6倍～100倍に小型化した手法を示しています。TRILLssonを作成するために、適切なサイズのオーディオ断片に知識蒸留法を適用し、異なるアーキテクチャタイプを使用して、モバイルデバイスで実行できるほど小さい、高速なネットワークを訓練しています。

超大規模な自己教師付きモデルを学習するための100万時間規模のデータセット

超大規模な自己教師付きCAP12モデルの学習に、YT-U学習データセットを活用します。YT-Uデータセットは、様々なトピック、背景条件、話者の音響特性を持つ音声を含む、非常に変化に富んだ9億時間超のデータセットです。

長さ(外側)と数(内側)によるYT-Uデータセット動画の分類。多様性を示しています。
(図はBigSSLの論文から引用)

そして、ラベルのない生データを用いたタスクを解決できるWav2Vec 2.0の自己教師付き学習パラダイムを修正し、超大型のConformerモデルと組み合わせます。

自己教師学習ではラベルを必要としないため、6億、10億、80億パラメータなど、これまでで最大級のモデルサイズにモデルを規模拡大して、YT-Uをフルに活用することができるようになりました。

NOSS：パラ言語タスクのためのベンチマーク

私達は、これまでのモデルの1つの中間特徴表現が、パラ言語音声のための最先端の特徴表現を含んでいることを実証します。

相対的なattentionを伴わない6億パラメータのConformerモデルを「Conformer Applied to Paralinguistics(CAP)」と呼ぶことにしました。6つの超大型モデルの全ての中間特徴表現を網羅的に探索し、第12層(CAP12)が従来の特徴表現を大幅に上回ることを見出しました。

約300のパラ言語特徴表現候補の品質を測定するために、私達はNOSS(NOn-Semantic Speech)ベンチマークの拡張版で評価しました。NOSSは、音声感情認識、言語識別、話者識別などのパラ言語音声タスクでよく研究されているコレクションです。

これらのタスクは、100ms以下の語彙的特徴ではなく、1秒以上の単位で音声特徴を評価する必要がある音声のパラ言語学的側面に着目しています。さらに、Interspeech 2020で導入されたマスク着用タスク、偽音声検出タスク(ASVSpoof 2019)、project Euphoniaの構音障害レベル検出タスク、音声感情認識タスク(IEMOCAP)をベンチマークに追加します。ベンチマークを拡張し、タスクの多様性を高めることで、CAP12がこれまでの特徴表現よりもさらに汎用的で有用であることを実証的に示しています。