MUSIQ:フルサイズ画像で美観評価と技術的品質評価を行う(1/2)

１．MUSIQ:フルサイズ画像で美観評価と技術的品質評価を行う(1/2)まとめ

・画像の品質を自動で評価するモデルは従来はCNNベースのものが主流であった
・CNN手法では入力画像を固定サイズにリサイズする制約を持つ場合が多い
・MUSIQは元の解像度画像に対して画質を予測可能なTransformersベースの手法

２．MUSIQとは？

以下、ai.googleblog.comより「MUSIQ: Assessing Image Aesthetic and Technical Quality with Multi-scale Transformers」の意訳です。元記事は2022年10月22日、Junjie KeさんとFeng Yangさんによる投稿です。

MUSIQはちょっと前にStable Diffusionの生成イラストを評価して貰った事があります。

アイキャッチ画像はstable diffusionの1.5版で美術品を品評しているトトロを生成したつもりが何故かハヤオ監督っぽくなったトトロ

画像の美的、技術的品質を理解することは、より良いユーザーの視覚体験を提供するために重要です。

画像品質評価(IQA:Image Quality Assessment)は、画像とその品質に対するユーザーの主観的な知覚の間に橋を架けるためにモデルを使用します。深層学習時代には、NIMAなど多くのIQAアプローチが、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)の力を活用して成功を収めています。

しかし、CNNベースのIQAモデルは、バッチ学習における固定サイズの入力要件、すなわち、入力画像を固定サイズの形状にリサイズまたはトリミングする必要があるという制約を受けることが多いです。画像は非常に異なる縦横比や解像度を持つことがあるため、この前処理はIQAにとって問題です。リサイズやトリミングは、画像の構成に影響を与えたり、歪みを生じさせたりするため、画像の品質を変化させる可能性があります。

CNNベースのモデルでは、一括して学習するために画像のリサイズ、もしくは固定形状に切り抜く必要があります。しかし、このような前処理を行うと、画像の縦横比や構図が変化するため、画質に影響を与える可能性があります。元画像はCC BY 2.0ライセンスで使用されています。

ICCV 2021で発表された「MUSIQ: Multi-scale Image Quality Transformer」では、固定入力サイズに対するCNN制約を回避し、元の解像度画像に対して効率的に画質を予測するパッチベースのマルチスケール画像品質トランスフォーマー(MUSIQ:Multi-Scale Image Quality transformer)を提案します。

MUSIQモデルは、縦横比と解像度が異なるフルサイズ画像入力の処理をサポートし、異なる粒度で画質を捉えるためのマルチスケール特徴抽出を可能にします。マルチスケール表現における位置符号化をサポートするために、画像のスケーリングを捉えるembedding と組み合わせた、新しいハッシュベースの2次元空間embeddingを提案します。私達はMUSIQを4つの大規模IQAデータセットに適用し、3つの技術品質データセット(PaQ-2-PiQ, KonIQ-10k, SPAQ)において一貫した最先端の結果を示し、美的品質データセットAVAにおいて最先端モデルと同等の性能を示します。

パッチベースのMUSIQモデルは、フルサイズの画像を処理し、マルチスケール特徴を抽出することができるため、人の典型的な視覚反応によりよく一致します。

次の図では、画像のサンプルとそのMUSIQスコア、複数の人間の評価者による平均意見スコア(MOS:Mean Opinion Score)を括弧内に示しています。スコアの範囲は0から100までで、100が最も高い品質とされています。図からわかるように、MUSIQは美的品質と技術的品質が高い画像を高いスコアで予測し、美的品質が低い画像(美的低品質)や目に見える歪みを含む画像(技術的低品質)を低いスコアで予測します。

高品質

美的低品質

技術的低品質KonIQ-10kデータセットの画像に対するMUSIQスコアの予測値(および検証済スコア)。上：MUSIQは高画質な画像に対して高いスコアを予測します。中段 MUSIQは、構図や照明が悪いなど、美的品質の低い画像を低スコアと予測します。下段 MUSIQは、目に見える歪み(ぼやけ、ノイズなど)がある画像など、技術的な品質が低い画像を低スコアと予測します。

マルチスケール画像品質トランスフォーマー

MUSIQは、フルサイズの画像でIQAを学習するという課題に取り組んでいます。解像度が固定されているCNNモデルとは異なり、MUSIQは任意の縦横比と解像度を持つ入力を扱うことができます。

これを実現するために、まず入力画像のマルチスケール表現を作成します。これには、本来の解像度の画像とそのリサイズされた変形画像を含みます。画像の構成を維持するために、リサイズ中も縦横比を維持します。画像のピラミッドを得た後、異なるスケールの画像を固定サイズの断片に分割し、モデルに供給します。

MUSIQにおけるマルチスケール画像表現のイメージ図

断片は様々な解像度の画像から得られるため、複数の縦横比を持つ複数の大きさの入力を、画素、空間、スケール情報の両方を取り込んだトークンの列に効果的にエンコードする必要があります。

これを実現するために、MUSIQでは以下の3つのエンコーディング部品を設計しています。
1)マルチスケール表現から抽出した断片を符号化するパッチ符号化モジュール
2)各断片の2次元空間位置を符号化する新しいハッシュベースの空間embeddingモジュール
3)異なるスケールを符号化する学習可能なスケールembedding
です。

このようにして、マルチスケール入力をトークンの列として効果的に符号化し、Transformerエンコーダの入力とすることができます。