UVQ：YouTubeの知覚的なビデオ品質を機械的に測定(1/2)

１．UVQ：YouTubeの知覚的なビデオ品質を機械的に測定(1/2)まとめ

・従来のビデオ評価指標は参照となるビデオとの差分で計測されている事が多い
・youtubeのようなユーザが作成するコンテンツは従来手法では評価が困難となる
・UVQは主観的な品質に似た評価を行い品質評価問題を解決しようとする試み

２．UVQとは？

以下、ai.googleblog.comより「UVQ: Measuring YouTube’s Perceptual Video Quality」の意訳です。元記事は2022年8月23日、Yilin WangさんとFeng Yangさんによる投稿です。

youtuberや動画を作成している人達にとっては自分の動画がどのように評価されるかに直結するお話なので気になる情報かもしれませんね。

アイキャッチ画像はstable diffusionで特に本文の内容と関係はありません。

YouTubeのようなオンライン動画共有プラットフォームでは、ユーザー体験をより最適化し、向上させるために、知覚的な動画品質(すなわち、動画品質に対するユーザーの主観的な知覚)を理解する必要があります。

映像品質評価(VQA:Video Quality Assessment)は、客観的な数学モデルを用いてユーザーの主観的な意見を近似することにより、映像信号と知覚的品質の間の橋渡しをしようとするものです。

ピーク信号対雑音比(PSNR:Peak Signal-to-Noise Ratio)やビデオマルチメソッドアセスメントフュージョン(VMAF:Video Multi-Method Assessment Fusion)のような従来の映像品質指標は、参照ベースであり、ターゲット映像と参照映像の相対差に着目しています。

このような指標は、専門的に作成されたコンテンツ(映画など)で最もよく機能し、参照ビデオが穢れのない初期状態(pristine)であることを仮定し、相対差からターゲットビデオの絶対品質を誘導することができます。

しかし、YouTubeにアップロードされる動画の大半はユーザーが生成したコンテンツ(UGC:User-Generated Content)であり、その動画内容やオリジナル品質のばらつきが著しく大きいため、新たな課題をもたらしています。

ほとんどのアップロードされたUGCは初期状態でなく、同じ量の相対的な違いが、非常に異なる知覚的な品質への影響を意味する可能性があります。

例えば、人々は高品質なアップロード動画に比べると低品質なアップロード動画の歪みに対してあまり敏感でない傾向があります。したがって、参照ベースの品質スコアは、UGCのケースに使用すると、不正確で一貫性のないものになります。

さらに、UGCの量が多いにもかかわらず、品質ラベルを持つUGCビデオ品質評価(UGC-VQA)データセットは現在限定的です。

既存のUGC-VQAデータセットは、分類と認識のために数百万のサンプルを持つデータセット(ImageNetやYouTube-8Mなど)に比べてサイズが小さいか(例えば、LIVE-Qualcommは54のユニークなシーンからキャプチャした208サンプル)、コンテンツの可変性が十分ではない(LIVE-VQCやKoNViD-1kなど、コンテンツ情報を考慮しないサンプリング)かのいずれかとなっています。

CVPR 2021で発表された論文「Rich Features for Perceptual Quality Assessment of UGC Videos」では、主観的な品質評価に似たユニバーサルビデオクオリティ(UVQ:Universal Video Quality)モデルを構築してUGC品質評価問題を解決しようとする方法を説明しています。

UVQモデルは、サブネットワークを用いて、高レベルの意味情報から低レベルの画素の歪みまでUGC品質を分析し、(包括的で解釈可能な品質ラベルを活用する事で)根拠ある信頼できる品質スコアを提供します。

さらに、UGC-VQAと圧縮の研究を進めるため、オープンソースのYouTube-UGCデータセットを強化しました。このデータセットには、YouTube上の数百万本のUGC動画(クリエイティブ・コモンズ・ライセンスの下で配布)から1,500の代表的なUGCサンプルが含まれています。このデータセットには、オリジナルビデオと符号化されたビデオの両方に対する真実のラベルが含まれており、ビデオコンテンツとその知覚品質の関係をより良く理解することが可能です。