MUSIQ:フルサイズ画像で美観評価と技術的品質評価を行う(2/2)

画像生成

1.MUSIQ:フルサイズ画像で美観評価と技術的品質評価を行う(2/2)まとめ

・MUSIQは入力のエンコーディングを変更するだけなので互換性が高い
・MUSIQは従来手法と比較して画像品質評価で最先端のスコアを出せる
・MUSIQは画像品質評価以外にも画像の縦横比に影響を受けるタスクで利用可能

2.MUSIQとは?

以下、ai.googleblog.comより「MUSIQ: Assessing Image Aesthetic and Technical Quality with Multi-scale Transformers」の意訳です。元記事は2022年10月22日、Junjie KeさんとFeng Yangさんによる投稿です。

アイキャッチ画像はstable diffusionの1.5版で生成したトトロ

最終的な画像品質スコアを予測するために、学習可能な「分類トークン(CLS:CLaSsification token)」を追加で用意する標準的なアプローチを用います。Transformerエンコーダの出力におけるCLSトークンの状態は、最終的な画像特徴表現として機能します。その後、IQSを予測するために完全連結層を追加します。下図はMUSIQモデルの概要です。


MUSIQの概要
マルチスケールの多重解像度入力は、スケール埋め込み(SCE:SCale Embedding)、ハッシュベース2次元空間埋め込み(HSE:Hash-based 2D Spatial Embedding)、マルチスケールパッチ埋め込み(MPE:Multi-scale Patch Embedding)の3つの要素で符号化されます。

MUSIQは入力のエンコーディングを変更するだけなので、どのようなTransformerの亜種とも互換性があります。提案手法の有効性を示すため、実験ではResNet-50と同程度のモデルサイズになるように、比較的軽量な設定の古典的なTransformerを使用しました。

ベンチマークと評価

MUSIQを評価するために、複数の大規模IQAデータセットに対して実験を行いました。各データセットにおいて、私達のモデル予測と人間の評価者の平均意見スコアとの間のスピアマンの順位相関係数(SRCC:Spearman’s Rank Correlation Coefficient)およびピアソンの線形相関係数(PLCC:Pearson Linear Correlation Coefficient)を報告します。

SRCCとPLCCは-1から1までの相関指標で、PLCCとSRCCが高いほど、モデル予測と人間の評価との間の整合性が高いことを意味します。下のグラフは、PaQ-2-PiQ、KonIQ-10k、SPAQにおいて、MUSIQが他の手法より優れていることを示しています。


4つの大規模IQAデータセットにおけるMUSIQと従来の最新手法(SOTA)の性能比較。
各データセットにおいて、モデル予測値と人間による検証済値のスピアマン順位相関係数(SRCC)、ピアソン線形相関係数(PLCC)を比較しました。

注目すべきは、PaQ-2-PiQのテストセットが、少なくとも1つの次元が640ピクセルを超える大きな写真ですべて構成されていることです。これは、リサイズが必要な従来の深層学習アプローチにとって非常に困難なことです。MUSIQはフルサイズのテストセットで従来の手法を大きく上回ることができ、その堅牢性と有効性が検証されました。

また、従来のCNNベースの手法では、テスト時に各画像に対して20もの切り抜きをサンプリングする必要があることが多かったことも特筆に値します。このような複数部分を切り抜いてアンサンブルするのは、CNNモデルにおける固定形状制約を緩和する方法です。しかし、各切り抜きは画像全体の一部分にしか過ぎないため、アンサンブルはまだ近似的なアプローチです。さらに、CNNベースの手法は、すべての切り抜きに対して追加の推論コストを追加し、異なる切り抜きをサンプリングするため、結果にランダム性をもたらす可能性があります。これに対し、MUSIQはフルサイズ画像を入力とするため、画像全体にわたる最適な情報集約を直接学習でき、推論を実行する必要も一度だけです。

さらに、MUSIQモデルが異なるスケールで異なる情報を捉えていることを検証するため、異なるスケールでの各画像のAttentionの重みを可視化しました。


出力されたトークンから、元の画像とリサイズされた2つの画像に対するAttentionの可視化。明るい領域はより高いAttentionを示し、その領域はモデル出力にとってより重要であることを意味します。説明のための画像はAVAデータセットから引用しています。

MUSIQは、フルサイズの高解像度画像ではより細部に、リサイズした画像ではよりグローバルな部分に注目する傾向があることが観察されます。例えば、上の花の写真では、元の画像ではモデルのAttentionが花弁の細部に集中し、低解像度では芽にAttentionが移っています。これは、モデルが異なる粒度で画質をとらえることを学習していることを示しています。

まとめ

解像度や縦横比が異なるフルサイズ画像の入力を扱えるマルチスケール画像品質トランスフォーマー(MUSIQ:Multi-Scale Image Quality transformer)を提案しました。MUSIQは、入力画像をグローバルビューとローカルビューの両方を持つマルチスケール表現に変換することで、異なる粒度で画質を捉えることができるモデルです。

MUSIQは画像品質評価(IQA:Image Quality Assessment)向けに設計されていますが、タスク用ラベルが画像の解像度や縦横比に敏感な他のシナリオにも適用できます。MUSIQのモデルとチェックポイントはGitHubリポジトリで公開されています。

謝辞

この研究は、Googleの複数のチームの協力によって実現されました。Qifei Wang、Yilin Wang、Peyman Milanfarの貢献に感謝します。

3.MUSIQ:フルサイズ画像で美観評価と技術的品質評価を行う(2/2)関連リンク

1)ai.googleblog.com
MUSIQ: Assessing Image Aesthetic and Technical Quality with Multi-scale Transformers

2)openaccess.thecvf.com
MUSIQ: Multi-scale Image Quality Transformer(PDF)

3)github.com
google-research/musiq/

タイトルとURLをコピーしました