1.CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)まとめ
・CAP12に基づくモデルは8つのパラ言語タスクの5つでタスク特化モデルよりも優れている
・CAP12をスマートフォンで使えるようにするため知識蒸留を使用して既存モデルを学習させた
・EfficientNet、AST、ResNetの3種で実験したところ各モデルで最高性能を出すサイズが異なった
2.TRILLssonとは?
以下、ai.googleblog.comより「TRILLsson: Small, Universal Speech Representations for Paralinguistic Tasks」の意訳です。元記事は2022年3月3日、Joel Shorさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Mediamodifier on Unsplash
時間平均化されたCAP12の特徴表現に基づく単純な線形モデルは、8つのパラ言語タスクのうち5つにおいて、複雑でタスクに特化したモデルよりも優れていることさえあります。
これは、同等のモデルが時に追加の入力(例えば、視覚と音声、またはテキストと音声)をも使用することから、驚くべきことです。さらに、CAP12は感情認識タスクにおいて例外的に優れています。CAP12のembeddingsは、他の全てのタスクにおいても、たった一つの例外を除いて、他の全てのembeddingsを凌駕しています。
Model | Voxceleb† | Voxforge | Speech Commands | ASVSpoof2019∗∗ | Euphonia# | CREMA-D | IEMOCAP |
Prev SoTA | – | 95.4 | 97.9 | 5.11 | 45.9 | 74.0∗ | 67.6 |
TRILL | 12.6 | 84.5 | 77.6 | 74.6 | 48.1 | 65.7 | 54.3 |
ASR Embedding | 5.2 | 98.9 | 96.1 | 11.2 | 54.5 | 71.8 | 65.4 |
Wav2Vec2 layer 6†† | 17.9 | 98.5 | 95 | 6.7 | 48.2 | 77.4 | 65.8 |
CAP12 | 51 | 99.7 | 97 | 2.5 | 51.5 | 88.2 | 75 |
NOSSベンチマークと拡張タスクでのテスト性能
「Prev SoTA」は従来の最も性能の良かった最先端モデルを示し、その複雑さは任意です。他の行は全て時間平均した入力に対する線形モデルです。
†YouTubeのプライバシーガイドラインに従ってフィルタリング
∗∗等価エラー率20を使用
#唯一の非公開データセット。集計対象から除外しています。
*音声と映像の特徴量は従来の最先端モデルで使用されています。
+先行する最新モデルではクロスバリデーションを実施しています。本評価では、特定の2人の話者をテストとして取り出しています。
††HuggingFace 社の Wav2Vec 2.0 モデル。総合的に最も優れていたのはレイヤー6でした。
TRILLsson:小型で高品質な一般公開用モデル
FRILLと同様に、私たちが次に取り組んだのは、CAP12をスマートフォンなどのデバイス上で使える形で一般に公開することでした。これは、より小さく、より速く、モバイルに適したアーキテクチャを学習させるために、知識蒸留を使用することでした。EfficientNet、Audio Spectrogram Transformer(AST)、ResNetの3種類で実験しました。
これらのモデルタイプは非常に異なっており、固定長入力と任意長入力の両方をカバーしています。EfficientNetはニューラル・アーキテクチャ探索を使って生み出されました。視覚タスクにおいて性能と効率を同時に達成するモデル構造です。
ASTモデルは、音声入力に適応したtransformersです。ResNetは、多くの異なるモデルで良好な性能を示してきた標準的なアーキテクチャです。
CAP12と比較して1~15%のサイズで、6%のデータで学習したにもかかわらず、平均90~96%の性能を発揮するモデルを学習しました。興味深いことに、異なるアーキテクチャタイプは異なるサイズにおいてより良いパフォーマンスを示すことがわかりました。ResNetモデルはローエンドで、EfficientNetはミドルエンドで、ASTモデルはラージエンドで最高のパフォーマンスを発揮しました。
3.CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)関連リンク
1)ai.googleblog.com
TRILLsson: Small, Universal Speech Representations for Paralinguistic Tasks
2)arxiv.org
Universal Paralinguistic Speech Representations Using Self-Supervised Conformers
TRILLsson: Distilled Universal Paralinguistic Speech Representations
3)tfhub.dev
trillsson
様々なサイズの生徒モデルにおけるモデルサイズに対する総合的なembedding性能比較
ResNetアーキテクチャは小さいサイズで、EfficientNetV2は中型のモデル範囲で、テストした最大のモデルサイズまで、その後は、より大きなASTモデルが最適であることを実証しています。