EfficientDet:規模の拡張が容易で効率的な物体検出ネットワーク(1/2)

AI

1.EfficientDet:規模の拡張が容易で効率的な物体検出ネットワーク(1/2)まとめ

・物体検出アプリケーションは様々な場所で必要とされるため計算能力の限界など様々な制約を受ける
・様々な制約にも適応できる正確で効率的な物体検出アプリケーションの実現には一層の効率化が必要
・EfficientDetは最新の物体検出器と比較してサイズが1/9、大幅に少ない計算量で最高精度を達成した

2.EfficientDetとは?

以下、ai.googleblog.comより「EfficientDet: Towards Scalable and Efficient Object Detection」の意訳です。元記事の投稿は2020年4月15日、Mingxing TanさんとAdams Yuさんによる投稿です。

EfficientNetを利用した物体検出(object detection)と言う事で、EfficientDetの命名になったと思うのですが、そこからPrivate Detective(私立探偵)の代表格であるベーカー街221Bにお住いのシャーロック・ホームズさんを連想したアイキャッチ画像はシャーロック・ホームズ博物館でクレジットはPhoto by Soyoung Han on Unsplash

コンピュータビジョンの中心的なアプリケーションの1つに、物体検出があります。
物体検出はロボット工学無人運転自動車など、高い精度が求められる状況で益々重要になってきていますが、ロボットや自動車に搭載されているコンピュータの性能は限られています。

残念ながら、現在の多くの高精度物体検出器は計算能力の制約に適合できていません。更に重要な事に、現実世界の物体検出アプリケーションは、様々な制約が課せられる様々なプラットフォームで実行されます。

それでは、様々なリソース制約にも適応できる正確で効率的な物体検出器を設計するにはどうすればよいでしょうか。

CVPR 2020に受理された論文「EfficientDet: Scalable and Efficient Object Detection」では、スケーラブルで効率的なオブジェクト検出器群、EfficientDetを紹介します。

EfficientDetはニューラルネットワーク()の規模拡大に関するこれまでの研究を基に、新しい双方向特徴ネットワーク(BiFPN:Bi-directional Feature Pyramid Network)と新しいスケーリングルールを組み込みます。

EfficientDetは、従来の最先端の物体検出器と比較して、最大9分の1の小型化を実現し、更に大幅に少ない計算量で最先端の精度を実現します。以下の図は、モデルの全体的なネットワークアーキテクチャを示しています。


EfficientDetアーキテクチャ
EfficientDetは、バックボーンネットワークとしてEfficientNet、および新しく提案されたBiFPN特徴ネットワークを使います。

モデルアーキテクチャの最適化
EfficientDetの背後にあるアイデアは、従来の最先端の物体検出モデルを体系的に調査する事で、計算効率を改善する解決策を見つけようとする私達の努力から生まれました。

一般に、物体検出器には3つの主要コンポーネントがあります。

1)与えられた画像から特徴を抽出するバックボーンネットワーク

2)バックボーンからマルチレベルな特徴を入力として受け取り、画像の顕著な特徴を融合した特徴表現のリストとして出力する特徴ネットワーク

3)融合した特徴表現を使用して各物体のクラスと場所を予測する最終的なクラス/ボックスネットワーク

これらのコンポーネントを設計する際の選択肢について調査する事により、パフォーマンスと効率を改善するためのいくつかの主要な最適化を特定しました。

従来の物体検出器は、バックボーンネットワークとして主にResNet、ResNeXt、またはAmoebaNetに依存しており、これらは全てEfficientNetよりも強力でないか、効率が悪いです。

まず、EfficientNetをバックボーンにして実装する事で、効率を大幅に向上させることができます。

例えば、ResNet-50バックボーンを採用したRetinaNetを基準とすると、ResNet-50をEfficientNet-B3に置き換えるだけで、計算量を20%削減しながら精度を3%向上できます。

別の最適化は、特徴ネットワークの効率を改善することです。以前のほとんどの物体検出器はシンプルにトップダウンな特徴ピラミッドネットワーク(FPN:Feature Pyramid Network)を採用していますが、トップダウンFPNは一方方向の情報フローによって本質的に制限されています。

PANetなどの代替FPNは、計算量を増やしボトムアップフローを追加しています。

ニューラルアーキテクチャ探索(NAS:Neural Architecture Search)を活用する最近の取り組みにより、より複雑なNAS-FPNアーキテクチャが発見されました。しかしながら、このネットワーク構造は効果的ですが、規則性がなく、特定タスクに対して高度に最適化されているため、他のタスクへの適応が困難です。

これらの問題に対処するために、新しい双方向機能ネットワークであるBiFPNを提案します。BiFPNは、FPN / PANet / NAS-FPNのマルチレベルな特徴融合のアイデアが組み込まれており、規則的かつ効率的な接続を使用して、トップダウンとボトムアップの双方向に情報を流すことができます。


BiFPNと従来の特徴ネットワークの比較
私達のBiFPNでは、マルチレベルな特徴(低解像度のP3レベルから高解像度のP7レベルまで)をトップダウンとボトムアップの両方で繰り返し流すことができます。

更に効率を向上させるために、新しい高速正規化融合手法を提案します。従来のアプローチでは、通常、FPNに入力される全ての特徴が同等に扱われました。解像度が異なっていても同じでした。

ただし、解像度が異なる入力特徴は、出力特徴への寄与も異なる事がよくあります。それゆえ、各入力特徴に重みを追加し、ネットワークがそれぞれの重要性を学習できるようにしました。

また、全ての通常の畳み込みを、より安価な深度毎に分離可能な畳み込みに置き換えました。これらの最適化により、BiFPNは精度を4%向上させつつ、計算コストを50%削減しています。

3.EfficientDet:規模の拡張が容易で効率的な物体検出ネットワーク(1/2)関連リンク

1)ai.googleblog.com
EfficientDet: Towards Scalable and Efficient Object Detection

2)arxiv.org
EfficientDet: Scalable and Efficient Object Detection

3)github.com
automl/efficientdet

コメント

タイトルとURLをコピーしました