EfficientDet：規模の拡張が容易で効率的な物体検出ネットワーク(2/2)

１．EfficientDet：規模の拡張が容易で効率的な物体検出ネットワーク(2/2)まとめ

・EfficientDetは物体検出器の解像度/深さ/幅を一緒に拡大する、新しい複合スケーリング手法を採用
・三つの最適化の結果、従来の最先端モデルを精度で上回りつつｍサイズを1/4、計算量を1/10に縮小
・ヘッドの差し替えによりセグメンテーションタスクでも性能向上と計算量削減を両立できた

２．EfficientDetの性能

以下、ai.googleblog.comより「EfficientDet: Towards Scalable and Efficient Object Detection」の意訳です。元記事の投稿は2020年4月15日、Mingxing TanさんとAdams Yuさんによる投稿です。

Detectiveの書斎をイメージしたアイキャッチ画像のクレジットはPhoto by Soyoung Han on Unsplash

3番目の最適化として、様々なリソース制約下で精度と効率のトレードオフを改善する必要があります。

私たちが行った以前のEfficientNetに関する研究では、ネットワークの深さ、幅、解像度を一緒にスケーリングする事で、画像認識の効率を大幅に改善できる事が示されました。

このアイデアに着想を得て、物体検出器の解像度/深さ/幅を一緒に拡大する、新しい複合スケーリング手法を提案します。

各ネットワークコンポーネント、つまり、つまり、バックボーンネットワーク、特徴ネットワーク、ボックス/クラス予測ネットワークには、スケーリングを制御する単一の複合スケーリング係数を持たせます。

どの程度スケリーングするかはヒューリスティックベース、つまり経験則的なルールで決定していますが、このアプローチにより、特定のリソースに関する制約を元にスケーリング係数を計算することにより、どの程度モデルをスケーリングするべきか簡単に決定できます。

新しいバックボーンとBiFPNを組み合わせて、最初に小さなサイズのEfficientDet-D0を基準モデルとして開発し、次に複合スケーリングを適用してEfficientDet-D1からEfficientDet-D7まで7つのモデルを開発しました。各モデルは段階的に計算量を増やしており、30億FLOPsから3000億FLOPSまでの幅広いリソース制約をカバーし、より高い精度を提供します。

モデルのパフォーマンス
物体検出に広く使用されているベンチマークデータセットであるCOCOデータセットを使ってEfficientDetを評価しました。EfficientDet-D7は52.2のmAP(mean average precision)を達成し、従来の最先端モデルを精度で1.5ポイント上回りますが、パラメータサイズは1/4、計算量は1/10です。

EfficientDetは、COCO test-devを使い、同じ設定の下で、従来の最先端モデルのスコアを上回る52.2mAPを達成しました。(従来の最先端モデルが計算に費やしたFLOPSは3045B FLOPであり、横軸が足らないためグラフ内には表示されていません)。EfficientDetモデルと同等のスコアをだすために従来モデルは4倍から9倍のパラメータサイズと13倍から42倍の計算量を必要します。

また、EfficientDetより前に発表されたモデルと、パラメーターサイズおよびCPU/GPUレイテンシを比較しました。同程度の精度の制約の下で、EfficientDetモデルは他の検出器よりもGPUで2x-4x、CPUで5x-11x高速です。

EfficientDetモデルは主に物体検出用に設計されていますが、セマンティックセグメンテーションなどの他のタスクでのパフォーマンスも調査しました。

セグメンテーションタスクを実行するには、同じスケーリングされたバックボーンとBiFPNを維持しながら、検出用ヘッドと損失関数をセグメンテーション用ヘッドと損失関数に置き換えを実施し、EfficientDet-D4をわずかに変更します。

このモデルを、セグメンテーションベンチマークで広く使用されているデータセットであるPascal VOC 2012を使って従来の最高のセグメンテーションモデルDeepLabV3+と比較したのが以下の表です。

–	mlOU accuracy	FLOPs
DeepLabV3(Xception)	80.02%	177B
EfficientDet	81.74%	18B

EfficientDetは、Pascal VOC 2012 valで、COCOデータセットによる事前トレーニングなしの同条件で、DeepLabV3+よりも1/10の計算量でより優れた品質を実現します。

オープンソース
EfficientDetはその卓越したパフォーマンスを考えると、将来のオブジェクト検出関連の研究の新しい基盤として機能し、高精度のオブジェクト検出モデルを現実世界のアプリケーションの多くで実用的にすることができると期待しています。従って、GitHubにて全てのコードと事前トレーニング済みモデルのチェックポイントをオープンソースとして公開しています。

謝辞
論文の共著者であるRuoming PangとQuoc V. Leに感謝します。
インフラストラクチャーに関する議論とディスカッションについて、Adam Kraft, Barret Zoph, Ekin D. Cubuk, Hongkun Yu, Jeff Dean, Pengchong Jin, Samy Bengio, Tsung-Yi Lin, Xianzhi Du, Xiaodan Song、およびGoogle Brainチームにも感謝します。