Axial-DeepLab:パノプティックセグメンテーション用にattentionを改良(2/2)

AI

1.Axial-DeepLab:パノプティックセグメンテーション用にattentionを改良(2/2)まとめ

・self-attentionは離れた位置の情報も集約できるが位置情報は提供しなかった
・相対位置などの情報を特徴表現に含めるようにし空間的構造を意識できるようになった
・COCOやCityscapesを含むいくつかのベンチマークで最先端のパフォーマンスを達成できた

2.Axial-DeepLabの性能

以下、ai.googleblog.comより「Axial-DeepLab: Long-Range Modeling in All Layers for Panoptic Segmentation」の意訳です。元記事の投稿は2020年8月26日、Huiyu WangさんとYukun Zhuさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Dan Dennis on Unsplash

位置に敏感なSelf-Attention
更に、self-attentionの位置に敏感な定式化を提案します。従来のself-attentionの定式化は、特定の画素Aが遠く離れた位置にある関連情報Bを集約できるようにしましたが、Bが受容野のどこで発生したかについては情報を提供しませんでした。

例えば、画素Aの特徴表現は猫の目で、関連情報Bは鼻と別の目であるとしましょう。この場合、画素Aに集約される特徴表現は、顔の空間的構造に関係なく、鼻と2つの目になります。

つまり、2つの目が画像の左下にあり、鼻が右上にあるような、猫の顔が成立していないケースでも、猫の顔が存在すると誤認識してしまう可能性があります。

最近提案された論文「Stand-Alone Self-Attention in Vision Models」では、受容野のどこで関連情報が発生したかについて位置的な傾向(positional bias)を与えています。この傾向は、Aのみ(目)の特徴表現に依存し、重要な関連情報を含むBの特徴表現には依存しません。

本研究では、この位置的な傾向をBの関連情報(つまり、鼻と別の目)にも依存させます。この変更により、画素とそれに通知する関連情報が互いに離れており、位置的な傾向が互いに異なっていても、より正確な位置的な傾向を知る事が可能になります。

更に、画素Aが関連情報Bの特徴を集約するときに、AからBへの相対位置を示す特徴表現も含めます。この変更により、AはBの発信元を正確に知ることができます。

これら2つの変更により、特に距離が離れた長距離モデリングの状況で、self-attentionが位置情報に敏感になります。

結果
COCOでAxial-DeepLabをテストし、Cityscapesでパノプティックセグメンテーションのテストをしました。各データセットの最新のPanoptic-DeepLabに対する改善を以下の表に示します。 特に、私達のAxial-DeepLabは、COCO test-devセットでPanoptic-DeepLabより2.8%、Panoptic Quality(PQ)を上回っています。

私達のシングルスケールの小さなモデルは、マルチスケールのPanoptic-DeepLabよりもパフォーマンスが優れていますが、計算効率が27倍に向上し、パラメータ数を1/4しか使用していません。

Cityscapesの最新の結果も表示します。 さらに、ブロック受容フィールドが5×5から65×65に増加すると、パフォーマンスが向上することがわかります。モデルは、モデルがトレーニングされていない分布外データに対してもより堅牢です。

ModelCOCOCitiscapes
Panoptic-DeepLab39.765.3
Axial-DeepLab (ours)43.4 (+3.7)66.5 (+1.2)

検証セットでのPanoptic-DeepLabとの単一スケール比較

パノプティックセグメンテーションに関する主な結果に加えて、完全axial-attentionモデルであるAxial-ResNetは、ImageNetの従来の最高のスタンドアロンself-attentionモデルよりも優れたパフォーマンスを発揮します。

 

ModelParamsM-AddsTop-1
ResNet-5025.6M4.1B76.9
Stand-Alone18.0M3.6B77.6
Full Axial-Attention (ours)12.5M3.3B78.1

完全Axial-Attentionは、ImageNetでも適切に機能します。

 

結論
画像分類とパノプティックセグメンテーションのために位置に敏感なaxial-attentionの有効性を提案し、実証しました。

ImageNetでは、axial-attentionブロックを積み重ねることによって形成されたAxial-ResNetが、スタンドアロンのself-attentionモデルの中で最先端の結果を達成しました。更に、ボトムアップパノプティックセグメンテーションのためにAxial-ResNetをAxial-DeepLabに変換し、COCOやCityscapesを含むいくつかのベンチマークで最先端のパフォーマンスを達成しました。

私達はこの有望な結果により、axial-attentionが現代のコンピュータビジョンモデルのための効果的な土台として確立される事を願っています。

謝辞
本投稿は、著者等とBradley Green, Hartwig Adam, Alan Yuille 及び Liang-Chieh Chenの研究を反映しています。また、ディスカッションとサポートについてNiki Parmarに、洞察に満ちたコメントと提案についてAshish Vaswani、Xuhui Jia、Raviteja Vemulapalli、Zhuoran Shenに、テクニカルサポートについてMaxwell CollinsとBlake Hechtmanに感謝します。

3.Axial-DeepLab:パノプティックセグメンテーション用にattentionを改良(2/2)関連リンク

1)ai.googleblog.com
Axial-DeepLab: Long-Range Modeling in All Layers for Panoptic Segmentation

2)arxiv.org
Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation
Stand-Alone Self-Attention in Vision Models

コメント

タイトルとURLをコピーしました