CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)

１．CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)まとめ

・CAP12に基づくモデルは8つのパラ言語タスクの5つでタスク特化モデルよりも優れている
・CAP12をスマートフォンで使えるようにするため知識蒸留を使用して既存モデルを学習させた
・EfficientNet、AST、ResNetの3種で実験したところ各モデルで最高性能を出すサイズが異なった

２．TRILLssonとは？

以下、ai.googleblog.comより「TRILLsson: Small, Universal Speech Representations for Paralinguistic Tasks」の意訳です。元記事は2022年3月3日、Joel Shorさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Mediamodifier on Unsplash

時間平均化されたCAP12の特徴表現に基づく単純な線形モデルは、8つのパラ言語タスクのうち5つにおいて、複雑でタスクに特化したモデルよりも優れていることさえあります。

これは、同等のモデルが時に追加の入力(例えば、視覚と音声、またはテキストと音声)をも使用することから、驚くべきことです。さらに、CAP12は感情認識タスクにおいて例外的に優れています。CAP12のembeddingsは、他の全てのタスクにおいても、たった一つの例外を除いて、他の全てのembeddingsを凌駕しています。

Model	Voxceleb†	Voxforge	Speech Commands	ASVSpoof2019∗∗	Euphonia#	CREMA-D	IEMOCAP
Prev SoTA	–	95.4	97.9	5.11	45.9	74.0∗	67.6
TRILL	12.6	84.5	77.6	74.6	48.1	65.7	54.3
ASR Embedding	5.2	98.9	96.1	11.2	54.5	71.8	65.4
Wav2Vec2 layer 6††	17.9	98.5	95	6.7	48.2	77.4	65.8
CAP12	51	99.7	97	2.5	51.5	88.2	75

NOSSベンチマークと拡張タスクでのテスト性能
「Prev SoTA」は従来の最も性能の良かった最先端モデルを示し、その複雑さは任意です。他の行は全て時間平均した入力に対する線形モデルです。
†YouTubeのプライバシーガイドラインに従ってフィルタリング
∗∗等価エラー率20を使用
#唯一の非公開データセット。集計対象から除外しています。
*音声と映像の特徴量は従来の最先端モデルで使用されています。
+先行する最新モデルではクロスバリデーションを実施しています。本評価では、特定の2人の話者をテストとして取り出しています。
††HuggingFace 社の Wav2Vec 2.0 モデル。総合的に最も優れていたのはレイヤー6でした。

TRILLsson：小型で高品質な一般公開用モデル

FRILLと同様に、私たちが次に取り組んだのは、CAP12をスマートフォンなどのデバイス上で使える形で一般に公開することでした。これは、より小さく、より速く、モバイルに適したアーキテクチャを学習させるために、知識蒸留を使用することでした。EfficientNet、Audio Spectrogram Transformer(AST)、ResNetの3種類で実験しました。

これらのモデルタイプは非常に異なっており、固定長入力と任意長入力の両方をカバーしています。EfficientNetはニューラル・アーキテクチャ探索を使って生み出されました。視覚タスクにおいて性能と効率を同時に達成するモデル構造です。

ASTモデルは、音声入力に適応したtransformersです。ResNetは、多くの異なるモデルで良好な性能を示してきた標準的なアーキテクチャです。

CAP12と比較して1～15%のサイズで、6%のデータで学習したにもかかわらず、平均90～96%の性能を発揮するモデルを学習しました。興味深いことに、異なるアーキテクチャタイプは異なるサイズにおいてより良いパフォーマンスを示すことがわかりました。ResNetモデルはローエンドで、EfficientNetはミドルエンドで、ASTモデルはラージエンドで最高のパフォーマンスを発揮しました。