1.UVQ:YouTubeの知覚的なビデオ品質を機械的に測定(1/2)まとめ
・従来のビデオ評価指標は参照となるビデオとの差分で計測されている事が多い
・youtubeのようなユーザが作成するコンテンツは従来手法では評価が困難となる
・UVQは主観的な品質に似た評価を行い品質評価問題を解決しようとする試み
2.UVQとは?
以下、ai.googleblog.comより「UVQ: Measuring YouTube’s Perceptual Video Quality」の意訳です。元記事は2022年8月23日、Yilin WangさんとFeng Yangさんによる投稿です。
youtuberや動画を作成している人達にとっては自分の動画がどのように評価されるかに直結するお話なので気になる情報かもしれませんね。
アイキャッチ画像はstable diffusionで特に本文の内容と関係はありません。
YouTubeのようなオンライン動画共有プラットフォームでは、ユーザー体験をより最適化し、向上させるために、知覚的な動画品質(すなわち、動画品質に対するユーザーの主観的な知覚)を理解する必要があります。
映像品質評価(VQA:Video Quality Assessment)は、客観的な数学モデルを用いてユーザーの主観的な意見を近似することにより、映像信号と知覚的品質の間の橋渡しをしようとするものです。
ピーク信号対雑音比(PSNR:Peak Signal-to-Noise Ratio)やビデオマルチメソッドアセスメントフュージョン(VMAF:Video Multi-Method Assessment Fusion)のような従来の映像品質指標は、参照ベースであり、ターゲット映像と参照映像の相対差に着目しています。
このような指標は、専門的に作成されたコンテンツ(映画など)で最もよく機能し、参照ビデオが穢れのない初期状態(pristine)であることを仮定し、相対差からターゲットビデオの絶対品質を誘導することができます。
しかし、YouTubeにアップロードされる動画の大半はユーザーが生成したコンテンツ(UGC:User-Generated Content)であり、その動画内容やオリジナル品質のばらつきが著しく大きいため、新たな課題をもたらしています。
ほとんどのアップロードされたUGCは初期状態でなく、同じ量の相対的な違いが、非常に異なる知覚的な品質への影響を意味する可能性があります。
例えば、人々は高品質なアップロード動画に比べると低品質なアップロード動画の歪みに対してあまり敏感でない傾向があります。したがって、参照ベースの品質スコアは、UGCのケースに使用すると、不正確で一貫性のないものになります。
さらに、UGCの量が多いにもかかわらず、品質ラベルを持つUGCビデオ品質評価(UGC-VQA)データセットは現在限定的です。
既存のUGC-VQAデータセットは、分類と認識のために数百万のサンプルを持つデータセット(ImageNetやYouTube-8Mなど)に比べてサイズが小さいか(例えば、LIVE-Qualcommは54のユニークなシーンからキャプチャした208サンプル)、コンテンツの可変性が十分ではない(LIVE-VQCやKoNViD-1kなど、コンテンツ情報を考慮しないサンプリング)かのいずれかとなっています。
CVPR 2021で発表された論文「Rich Features for Perceptual Quality Assessment of UGC Videos」では、主観的な品質評価に似たユニバーサルビデオクオリティ(UVQ:Universal Video Quality)モデルを構築してUGC品質評価問題を解決しようとする方法を説明しています。
UVQモデルは、サブネットワークを用いて、高レベルの意味情報から低レベルの画素の歪みまでUGC品質を分析し、(包括的で解釈可能な品質ラベルを活用する事で)根拠ある信頼できる品質スコアを提供します。
さらに、UGC-VQAと圧縮の研究を進めるため、オープンソースのYouTube-UGCデータセットを強化しました。このデータセットには、YouTube上の数百万本のUGC動画(クリエイティブ・コモンズ・ライセンスの下で配布)から1,500の代表的なUGCサンプルが含まれています。このデータセットには、オリジナルビデオと符号化されたビデオの両方に対する真実のラベルが含まれており、ビデオコンテンツとその知覚品質の関係をより良く理解することが可能です。
主観的な映像品質評価
動画品質の知覚を理解するために、社内のクラウドソーシングプラットフォームを活用し、参照先となる映像がない事例について、1が最低品質、5が最高品質となる1~5の平均オピニオン評点(MOS:Mean Opinion Scores)を収集します。
YouTube-UGCデータセットから検証済みラベルを収集し、品質認識に影響を与えるUGC要因を、(1)コンテンツ、(2)歪み、(3)圧縮の3つのハイレベルなカテゴリに分類しています。
例えば、意味のないコンテンツがある動画は、高い品質のMOSを受け取ることはできません。また、映像制作段階で混入した歪みや、符号化や伝送などのサードパーティプラットフォームによって混入した映像圧縮による影響で混入した人工物は、全体の品質を低下させることになります。
MOS= 2.052
意味のない動画は高いMOSを得る事ができません。
MOS= 4.457
激しいスポーツの映像は、MOSが高くなります。
MOS= 1.242
ぼやけたゲーム動画は、非常に低品質なMOSになります。
MOS= 4.522
プロフェッショナルなレンダリング(通常、映像制作段階で導入される高コントラストでシャープなエッジ)を施した映像では、高品質のMOSが得られています。
MOS= 2.372
激しく圧縮されたビデオは、低品質のMOSになります。
MOS= 4.646
圧縮時の影響でチラツキなどの人工効果のないビデオは、高品質のMOSを示します。
3番目のゲーム動画は、MOSが最も低く(1.2)、1番目の意味のない内容の動画よりもさらに低いことが実証されています。
考えられる説明としては、視聴者はゲーム映像のような明確な物語構造を持つ映像に対して高い映像品質期待を持っている可能性があり、ぼやけた画面が映像の知覚品質を著しく低下させることが挙げられます。
3.UVQ:YouTubeの知覚的なビデオ品質を機械的に測定(1/2)関連リンク
1)ai.googleblog.com
UVQ: Measuring YouTube’s Perceptual Video Quality
2)openaccess.thecvf.com
Rich features for perceptual quality assessment of UGC videos(PDF)
3)media.withyoutube.com
YouTube dataset for video compression research