フレシェ距離を使用したオーディオとビジュアルの品質測定(3/3)

１．フレシェ距離を使用したオーディオとビジュアルの品質測定(3/3)まとめ

・FADとFVDによる評価が人間による評価を厳密に相関する事は実際のデータを使った検証された
・同じ音声を異なった２つの手段で歪ませて、どちらがよりすぐ実音声に近いかを人間が定性的に判断
・こうしてできた定性的な人間判断とFAD値の比較は非常によく相関していることが示された

２．FADとFVDの評価

以下、ai.googleblog.comより「Audio and Visual Quality Measurement using Fréchet Distance」の意訳です。元記事の投稿は2019年10月23日、Kevin KilgourさんとThomas Unterthinerさんによる投稿です。

以下は、FADを計算する際のオーディオembeddingベクトルを2次元で視覚化した図です。

各ポイントは、5秒のオーディオクリップのembeddingに対応します。青いポイントは元音楽のものであり、他のポイントは何らかの方法で歪ませられた音楽を表します。

推定された多変量ガウス分布が同心円として表示されています。

歪みの大きさが増加するにつれて、歪んだ音楽の分布と元音楽の分布が重なり合う部分が減少します。
これらの分布間の距離がフレシェ距離が測定するものです。

アニメーションでは、歪みの大きさが増加するにつれて、歪みのあるオーディオのガウス分布がクリーンなオーディオの分布とあまり重なり合わなくなる事がわかります。この分離の大きさは、フレシェ距離が測定しているものです。

評価
FADとFVDによる評価が人間による評価を厳密に相関する事は重要です。人間による評価は、「現実的」な見た目と音声を評価する際のゴールドスタンダードだからです。

そこで、大規模な人間による調査を実施し、生成されたオーディオとビデオで「人間による定性的な評価」と「新しい測定基準による評価」の整合性がどれだけうまく機能しているかを診断しました。

この研究では、人間の評価者が10,000のビデオペアと69,000の5秒のオーディオクリップを調べました。

FADでは、人間の評価者に同じオーディオセグメントに対する2つの異なる歪みの影響を比較するように依頼しました。比較する歪みのペアとそれらが出現する順序の両方がランダム化されています。

評価者は、「どちらのオーディオクリップがスタジオで録音されたオーディオに最も似ていますか？」と質問されました。収集されたペア毎の評価セットは、Plackett-Luceモデルを使用してランク付けされ価値を推定されます。こうして出来た価値値とFADの比較は、FADが人間の判断と非常によく相関していることを示しています。

この図は、クリーンなバックグラウンドミュージックと、さまざまな方法(ピッチダウン、ガウスノイズなど)で歪ませた音楽との間で計算されたFADを、人間が行った評価値と比較しています。各歪みタイプには、適用される歪みの上限と下限を表す2つのデータポイントがあります。例えば、量子化歪み(紫色の円)は、オーディオをサンプルごとに特定のビット数に制限します。2つのデータポイントは2つの異なるビットレートを表します。人間の評価者とFADの両方が、より低いビットレートの量子化により高い値(つまり、「現実的ではない」)を割り当てました。全体的な対数FADは人間の判断とよく相関しています。対数FADと人間の知覚とが完全に相関した際には各ポイントは直線上に配置される事になります。

結論
現在、生成モデルは大きな進歩を遂げています。 FADとFVDは、この進歩を測定可能な状態に保つのに役立ちます。そして、オーディオとビデオ生成のモデルの改善に繋がる事を祈っています。

謝辞
この大きな努力に貢献した多くの人々がいます。主要な貢献者の一部を強調したいと思います。
Sjoerd van Steenkiste, Karol Kurach, Raphael Marinier, Marcin Michalski, Sylvain Gelly, Mauricio Zuluaga, Dominik Roblek, Matthew Sharifi、そしてGoogle Brain team in Zurichの皆さん。