1.分類精度が高すぎるモデルは知覚的類似度を予測する用途に不向き(2/2)まとめ
・知覚スコアを向上させる戦略はモデルの規模を縮小して精度を下げる事になる
・ユークリッド距離ではなく2つの知覚関数を用いて知覚的類似度を計算した
・スキップ結合のないモデルの精度はPSと逆相関している事もわかった
2.知覚的類似度の算出方法
以下、リニューアルされたai.googleblog.comより「Do Modern ImageNet Classifiers Accurately Predict Perceptual Similarity?」の意訳です。元記事は2022年10月19日、Manoj KumarさんとEkin Dogus Cubukさんによる投稿です。
アイキャッチ画像はstable diffusionの生成
モデルのスケールダウンによる知覚スコアの向上
この結果から、アーキテクチャの知覚スコア(PS:Perceptual Scores)を向上させるためのシンプルな戦略が導き出されました。それは、最適な知覚スコアに達するまで、モデルをスケールダウンしてその精度を下げることです。下の表は、各モデルをハイパーパラメータごとにスケールダウンすることで得られたPSの改善度をまとめたものです。ViT-L/4を除いて、アーキテクチャに関係なく、早期停止が最も高いPSの改善をもたらします。さらに、早期停止は、高価なグリッドサーチが不要なため、最も効率的な戦略です。
Model | Default | Width | Depth | Weight | Central | Train | Best |
Decay | Crop | Steps | |||||
ResNet-6 | 69.1 | 0.4 | – | 0.3 | 0 | 0.5 | 69.6 |
ResNet-50 | 68.2 | 0.4 | – | 0.7 | 0.7 | 1.5 | 69.7 |
ResNet-200 | 67.6 | 0.2 | – | 1.3 | 1.2 | 1.9 | 69.5 |
ViT B/8 | 67.6 | 1.1 | 1 | 1.3 | 0.9 | 1.1 | 68.9 |
ViT L/4 | 67.9 | 0.4 | 0.4 | -0.1 | -1.1 | 0.5 | 68.4 |
知覚スコアはImageNetモデルをスケールダウンすることで向上します。各値は、デフォルトのハイパーパラメータのモデルに対して、与えられたハイパーパラメータでモデルをスケールダウンすることによって得られる改善を示しています。
グローバルな知覚関数
先行研究において、知覚的類似性関数は、画像の空間次元内のユークリッド距離を用いて計算されていました。これは画素間の直接的な対応を仮定しており、歪みや平行移動、回転した画像では成立しない可能性があります。その代わりに、画像のグローバルな特徴表現に依存する2つの知覚関数、すなわち、2つの画像間のスタイルの類似性を捉えるNeural Style Transferの研究によるスタイルロス関数(style-loss function)と、正規化平均プール距離関数を採用することにしました。スタイルロス関数は2つの画像間のチャネル間相互相関行列を比較し、平均プール関数(mean pool function)は空間的に平均化されたグローバルな特徴表現を比較します。
グローバル知覚は、デフォルトハイパーパラメータで学習したネットワーク(上)とResNet-200の両方において、学習エポックの関数として一貫してPSを向上させます(下)
私達は、精度とPSの関係を説明するために多くの仮説を検討し、いくつかの追加的な洞察を得ました。例えば、よく使われるスキップ結合のないモデルの精度はPSと逆相関しており、入力に近い層は出力に近い層に比べて平均してPSが低くなります。歪み感度、ImageNetのクラス粒度、空間周波数感度を含む更なる探求については、私達の論文をチェックしてください。
まとめ
本稿では、分類精度の向上がより良い知覚指標をもたらすかどうかという問題を検討しました。私達は、ResNetsとViTにおいて、多くの異なるハイパーパラメータで精度とPSの関係を調べ、PSが精度と逆U字型の関係を示すことを観察しました。
最後に、私達の論文では、精度とPSの間に観察された関係に対する多くの説明について、スキップ接続、グローバル類似性関数、歪み感度、層別知覚スコア、空間周波数感度、ImageNetクラス粒度などを含む詳細に議論しています。ImageNetの精度と知覚的類似度の間のトレードオフの正確な説明は謎ですが、私たちの論文がこの分野のさらなる研究への扉を開くことを期待しています。
謝辞
本論文は、Neil Houlsby、Nal Kalchbrennerとの共同研究です。また、Basil Mustafa, Kevin Swersky, Simon Kornblith, Johannes Balle, Mike Mozer, Mohammad Norouzi, およびJascha Sohl-Dicksteinには、有益な議論を提供していただきました。
3.分類精度が高すぎるモデルは知覚的類似度を予測する用途に不向き(2/2)関連リンク
1)ai.googleblog.com
Do Modern ImageNet Classifiers Accurately Predict Perceptual Similarity?
2)openreview.net
Do better ImageNet classifiers assess perceptual similarity better?(PDF)