MixIT：教師なし学習で野鳥の鳴き声を聞き分けて分離する(2/2)

１．MixIT：教師なし学習で野鳥の鳴き声を聞き分けて分離する(2/2)まとめ

・分離モデルには過剰分離や文脈の喪失などの潜在的な問題が存在している事はわかっている
・分離されたチャンネルとオリジナルの音声を使って分類する事で最良の結果を得ている
・教師なし分離モデルは、鳥だけでなく、生態学に多くの応用の可能性があると予測される

２．MixITの性能

以下、ai.googleblog.comより「Separating Birdsong in the Wild for Classification」の意訳です。元記事は2022年1月24日、Tom DentonさんとScott Wisdomさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Tom Bradley on Unsplash

鳥の種類の分類

自律型録音装置(ARUs:Autonomous Recording Units)で録音した実世界の音声に含まれる鳥を分類するために、まず音声を5秒間隔で断片に分割し、各断片のメルスペクトログラム(mel-spectrogram)を画像として作成しました。

次に、Xeno-CantoとMacaulay Libraryの音声を用いて、EfficientNetの分類器を訓練しメルスペクトグラム画像から鳥の種類を識別する訓練を行いました。

シエラネバダ山脈の鳥とニューヨーク州北部の鳥の2種類の分類器を訓練しました。これらの分類器は分離された音声で訓練されていないことに注意してください。これについては将来の改良点です。

また、分類器の学習を改善するために、いくつかの新しいテクニックを導入しました。分類法学習(Taxonomic training)では、種の分類法の各レベル(属(genus)、科(family)、目(order))のラベルを分類器に与えるよう求めます。これにより、モデルは類似した種同士の微妙な違いを学習する前に、種のグループ分けを学習することができます。また、分類法学習により、モデルは異なる種間の分類学的な関係性に関する専門知識を利用することができます。

また、ランダムローパスフィルタリング(random low-pass filtering)は、訓練中に遠くの音をシミュレートするのに有効であることが分かりました。音源が遠ざかるにつれて、高周波数部分が低周波数部分よりも先にきこえづらくなっていきます。これは、鳥の鳴き声が樹木に邪魔されずに非常に遠くからも聞こえるハイシエラ地域の種を識別する際に特に効果的でした。

分離された音声の分類

新しいMixITモデルで鳴き声を分離してから分類すると、3つの独立した実世界のデータセットで分類器の性能が向上することがわかりました。この分離は、特に目立たない鳥と遠景の鳥の識別に成功し、多くの場合、重複した鳴き声にも有効でした。

上：シエラネバダ山脈のアメリカシギ(amepip)とハイガシラハギマシコ(gcrfin)の2羽のメルスペクトログラム。凡例は、事前に学習させた分類器による2種の対数確率を示す。値が高いほど信頼度が高く、-1.0より大きい値は通常正しい分類であることを示します。
下：自動的に分離された鳴き声のメルスペクトログラムと、分離されたチャンネルからの分類器の対数確率。分類器は鳴き声が分離された時点で初めてgcrfinを正しく識別できている事に注目してください。

上：3つの鳴き声が複雑に混ざり合った例。アメリカキクイタダキ(gockin)、マミジロコガラ(mouchi)、ステラーカケス(stejay)
下：3つのチャンネルに分離し、3種の分類器の対数確率を表示したもの。分類器はステラーカケスの分類に失敗していますが、ステラーカケス(ピンクのマークで表示)は視覚的によく分離されています。

分離モデルには、潜在的な限界があります。

時々、1つの唄声が複数のチャンネルに分離される過剰分離(over-separation)が観測されるのですが、これは誤判定の原因となります。

また、複数の鳥が唄っている場合、最も目立つ歌が分離後に低いスコアとなることが多いことに気づきました。

これは、分離によって、唄の連続性が文脈として喪失する事や、分類器の学習時には現れない他の人工的効果が原因である可能性があります。

今のところ、分離されたチャンネルとオリジナルの音声で分類器を実行し、それぞれの種の最大スコアを取ることで最良の結果を得ています。今後、さらに研究を進めることで、過剰分離を減らし、分離と分類を組み合わせたより良い方法を見つけることができると期待しています。GitHubのレポでは、このシステムの完全な例を見たり聞いたりすることができます。

今後の方向性

現在、カリフォルニア科学アカデミーのパートナーと共同で、長年にわたって収集したARU音声にこれらのモデルを適用し、野焼きや山火事の後に生息地や種の構成がどのように変化するかを解明しています。

また、教師なし分離モデルは、鳥だけでなく、生態学に多くの応用の可能性があると予測しています。例えば、分離された音声を利用して、より優れた音響指標を作成することができます。これは、種を特定せずに、鳥や昆虫、両生類の活動全体を追跡することで、生態系の健全性を測定することができます。また、同様の手法は、水中でのサンゴ礁の健康状態の把握にも応用できるかもしれません。

謝辞

カリフォルニア科学アカデミーのMary Clapp, Jack Dumbacher, およびDurrell Kapanには、シエラネバダ山脈の広範囲な注釈付き音景データを提供していただき、感謝しています。

コーネル鳥類研究所のStefan KahlとHolger Klinckからは、Sapsucker Woodsの音景データをご提供いただきました。分離・分類モデルのトレーニングデータはXeno-CantoとMacaulay Libraryから提供されました。最後に、Google BioacousticsとSound SeparationチームのJulie Cattiau, Lauren Harrell, Matt Harveyそして共著者のJohn Hersheyに感謝します。