LEAF:人間の聴覚用の設定を学習システムに置き換えてオーディオ分類の性能を向上(2/2)

モデル

1.LEAF:人間の聴覚用の設定を学習システムに置き換えてオーディオ分類の性能を向上(2/2)まとめ

・LEAFは小さな分類器と組み合わせた場合でもパラメーター全体の0.01%しか占有しない
・LEAFは話者識別、音響シーン認識、楽器の識別、鳥のさえずりの検索などに利用可能
・LEAFはメルフィルターバンクの73.9%と比較して76.9%の平均精度を達成した

2.LEAFの性能

以下、ai.googleblog.comより「LEAF: A Learnable Frontend for Audio Classification」の意訳です。元記事の投稿は2021年3月12日、Neil Zeghidourさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jason Strull on Unsplash

LEAFはランダムに初期化できますが、より適切な開始点であることが示されているメルフィルターバンクに近似させて初期化することもできます。その後、LEAFを任意の分類器でトレーニングして、対象のタスクに適応させることができます


左:「wow!(すごい!)」と言っている人の声のメルフィルターバンク
右:音声コマンドのデータセットでトレーニングした後の、同じ声に対するLEAFの出力

固定化手法でパラメータ効率を向上
学習可能なパラメーターを含まない固定機能をトレーニング可能なシステムに置き換えることの潜在的な欠点は、最適化するパラメーターの数を大幅に増せてしまう事です。

この問題を回避するために、LEAFは、標準の畳み込みレイヤーで一般的な最大400のパラメーターではなく、フィルターごとに2つのパラメーターしかないGabor畳み込みレイヤーを使用します。このように、EfficientNetB0などの小さな分類器と組み合わせた場合でも、LEAFモデルはパラメーター全体の0.01%しか占めません。


上:オーディオイベント分類トレーニング後の制約なし畳み込みフィルター
下:同じタスクのトレーニング後の収束時のLEAFフィルター

パフォーマンス
LEAFは、音声コマンドの認識、話者識別、音響シーン認識、楽器の識別、鳥のさえずりの検索など、さまざまな音声分類タスクに適用できます。平均して、LEAFは、メルフィルターバンクと、タイムドメインフィルターバンク、SincNet、Wavegramなどの以前の学習可能なフロントエンドの両方を上回っています。

特に、LEAFは、メルフィルターバンクの73.9%と比較して、さまざまなタスクで76.9%の平均精度を達成しています。更に、LEAFをマルチタスク設定でトレーニングできることを示します。これにより、単一のLEAFパラメーター化がこれら全てのタスクで適切に機能します。最後に、大型のオーディオ分類器と組み合わせると、LEAFは2.74d-primeスコアで挑戦的なAudioSetベンチマークで最先端のパフォーマンスに到達します。


LEAF、メルフィルターバンク、およびAudioSetの評価セットで以前に提案された学習可能なスペクトログラムのDプライムスコア(高いほど良い事を意味します)。

結論
音声を使った認知症の診断から、水中マイクからのザトウクジラの鳴き声の検出まで、音声理解タスクの範囲は拡大し続けています。メルフィルターバンクを全ての新しいタスクに適応させるには、かなりの量の手作業による調整と実験が必要になる可能性があります。このような作業が必要になる場面で、LEAFは、これらの固定機能の差し替えを提供します。これは、最小限のタスク固有の調整で、対象のタスクに適応するようにトレーニングできます。従って、LEAFは新しい音声理解タスクのモデルの開発を加速できると信じています。

謝辞
共著者のOlivier Teboul, Félix de Chaumont-Quitry and Marco Tagliasacchiに感謝します。
また、有益な議論をしてくれたDick Lyon, Vincent Lostanlen, Matt Harvey, 及び Alex Park。
そしてこの投稿内の図面のデザインを手伝ってくれたJulie Thomasにも感謝します。

3.LEAF:人間の聴覚用の設定を学習システムに置き換えてオーディオ分類の性能を向上(2/2)関連リンク

1)ai.googleblog.com
LEAF: A Learnable Frontend for Audio Classification

2)arxiv.org
LEAF: A Learnable Frontend for Audio Classification

3)github.com
google-research / leaf-audio

タイトルとURLをコピーしました