フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)

  • 2019.10.24
  • AI
フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)まとめ

・GANの品質を測定する手法としてFID、フレシェ インセプション 距離がある
・FIDの原則に基づいてフレシェビデオ距離(FVD)とフレシェオーディオ距離(FAD)が提案された
・両者の重要な構成要素は、ビデオまたはオーディオをN次元embeddingに変換する事前トレーニングモデル

2.フレシェオーディオ距離とフレシェビデオ距離

以下、ai.googleblog.comより「Audio and Visual Quality Measurement using Fréchet Distance」の意訳です。元記事の投稿は2019年10月23日、Kevin KilgourさんとThomas Unterthinerさんによる投稿です。

更に、生成的敵対ネットワーク(GAN:generative adversarial networks)は、他の分布を完全に無視しながら、ターゲット分布全体のいくつかのモードに焦点を合わせる傾向があります。例えば、1種類のオブジェクトのみを生成することや、選択したいくつかの表示角度のみを生成することを学習する場合があります。結果として、モデルからの限られた数のサンプルのみを見ても、ネットワークが分布全体を正常に学習したかどうかがわからない場合があります。これを改善するには、ターゲット分布の特性も考慮に入れながら、品質に関する人間の判断とうまく整合する測定基準が必要です。

この問題の一般的な解決策の1つは、いわゆるフレシェ インセプション 距離(FID:Fréchet Inception Distance)基準です。これは画像専用に設計されています。FIDは、ターゲット分布と生成モデルの両方から多数の画像を取得し、Inceptionオブジェクト認識ネットワークを使用して、重要な特徴を捕捉する低次元空間に各画像を埋め込みます。

次に、これらのサンプル間のいわゆるフレシェ距離を計算します。これは、分布間の距離を計算する一般的な方法であり、2つの分布が実際にどれだけ似ているかを定量的に測定します。


両方の測定基準の重要な構成要素は、ビデオまたはオーディオクリップをN次元のembeddingに変換する事前トレーニングモデルです。

フレシェオーディオ距離とフレシェビデオ距離
画像分野で成功したFIDの原則に基づいて、フレシェビデオ距離(FVD)とフレシェオーディオ距離(FAD)の両方を提案します。ピークS/N比や構造的類似性指数などの一般的な測定基準とは異なり、FVDはビデオ全体を確認するため、フレーム毎に測定する基準が持つ欠点を回避できます。


新しいFVD測定基準によって判断されるロボットアームのビデオの例。FVD値は、左上から右下に約2000、1000、600、400、300、および150であることがわかりました。FVDが低いほど、ビデオの品質が高くなることは明らかです。

オーディオ分野では、既存の測定基準は、ソース/ディストーション比(SDR)などの時間調整されたグラウンドトゥルース信号を必要とするか、音声品質などの特定領域のみをターゲットにします。一方、FADは参照用データは不要であり、あらゆるタイプのオーディオで使用できます。

3.フレシェ距離を使用したオーディオとビジュアルの品質測定(2/3)関連リンク

1)ai.googleblog.com
Audio and Visual Quality Measurement using Fréchet Distance

2)arxiv.org
Fréchet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms
Towards Accurate Generative Models of Video: A New Metric & Challenges

3)github.com
google-research/frechet_video_distance
google-research/frechet_audio_distance