フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)

  • 2019.10.23
  • AI
フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)

1.フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)まとめ

・生成モデルが生成した画像や音声を定量的に評価する手法は従来は存在しなかった
・この課題を解決するフレシェオーディオ距離(FAD)とフレシェビデオ距離(FVD)の2つの測定基準を制定
・1万を超えるデータで検証した所、本測定基準と人間の知覚の間に高い相関が示された

2.生成モデルの品質を評価する手法

以下、ai.googleblog.comより「Audio and Visual Quality Measurement using Fréchet Distance」の意訳です。元記事の投稿は2019年10月23日、Kevin KilgourさんとThomas Unterthinerさんによる投稿です。

いつも言っている事でなのですが、あなたが自分が話していることを測定し、それを数字で表現できるとき、それについて貴方は良く知っていると言えます。しかし、あなたがそれを測定できないとき、あなたがそれを数字で表現できないとき、あなたの知識は貧弱で不十分なものです。

ウィリアム・トムソン(ケルヴィン卿)
Lecture on “Electrical Units of Measurement” (3 May 1883), published in Popular Lectures Vol. I, p. 73

機械学習の科学的進歩の速さは、多くの場合、優れたデータセットと測定基準(metrics)がどれだ利用可能かによって決まります。深層学習では、ImageNetやPenn Treebankなどのベンチマークデータセットが、画像認識と言語モデリングのための深層人工ニューラルネットワークを確立した原動力の1つでした。

しかし、利用可能な「グラウンドトゥルース(ground-truth:正しいと確かめられている)」ラベルが付与されたデータセットは、これらの予測タスクのパフォーマンスの尺度として適切に役立ちますが、生成モデルが生成した結果と比較するために利用可能な「ground-truth」の決定はそれほど単純ではありません。

StarCraftビデオゲームの動画を生成する生成モデルを想像してください。どのモデルが最適であるかをどのように判断しますか?以下に示すビデオのいくつかは明らかに他のものよりリアルに見えますが、それらの違いを定量化できますか?

生成モデルの品質評価を堅牢な評価基準で測定可能にする事は、オーディオおよびビデオの理解の分野で進歩を測定(および達成)するために重要ですが、現在そのような基準は存在しません。


StarCraft Video(SCV)データセットでトレーニングされた様々なモデルが生成したビデオ。

論文、「Fréchet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms」と「Towards Accurate Generative Models of Video: A New Metric & Challenges」では、フレシェオーディオ距離(FAD)とフレシェビデオ距離(FVD)の2つの測定基準を示します。

10,000のビデオと69,000のオーディオクリップを用いて、人間による評価とペアで大規模に比較したところ、本測定基準と人間の知覚の間に高い相関を示しました。また、Githubでフレシェビデオ距離とフレシェオーディオ距離の両方のソースコードをリリースしています。

フレシェ距離の一般的な説明
生成モデルの目標は、トレーニング時に使用したサンプルに似たサンプルを作成することを学習することです。つまり、トレーニングデータ内に存在する可能性が高い属性と特徴、及び存在する可能性が低い属性や特徴について知る事です。

言い換えれば、生成モデルは、トレーニングデータの確率分布を学習する必要があります。

多くの場合、生成モデルのターゲット分布は非常に高次元なデータです。例えば、3つのカラーチャンネルを備えた128×128ピクセルの単一画像はほぼ50,000次元ですが、秒単位の長さのビデオクリップは、数十(または数百)の同様な高次元フレームから構成され、更にオーディオデータとして16,000サンプルを含むかもしれません。

特定のモデルがどの程度の品質かを定量化するために、このような高次元データの分布間の距離を計算することは非常に困難です。写真であれば、視覚的な品質を測定するためにいくつかのサンプルを人間が見て測定する事ができますが、訓練された全て生成モデルの出力に対して目でチェックする事は現実的ではありません。

3.フレシェ距離を使用したオーディオとビジュアルの品質測定(1/3)関連リンク

1)ai.googleblog.com
Audio and Visual Quality Measurement using Fréchet Distance

2)arxiv.org
Fréchet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms
Towards Accurate Generative Models of Video: A New Metric & Challenges

3)github.com
google-research/frechet_video_distance
google-research/frechet_audio_distance