視覚タスクで学習した重みをロボット操作タスクに転移学習する試み(2/3)

１．視覚タスクで学習した重みをロボット操作タスクに転移学習する試み(2/3)まとめ

・多くの視覚タスクモデルは「バックボーン(backbone)」と「ヘッド(head)」の2つの部分から構成される
・ヘッドはタスク固有でもあるため転移学習ではバックボーン部のみを転移対象とする事が一般的
・しかしヘッドだけを転移したモデルはは転移学習なしでトレーニングしたモデルと大差なかった

２．アフォーダンスベース操作のための転移学習

以下、ai.googleblog.comより「Visual Transfer Learning for Robotic Manipulation」の意訳です。元記事の投稿は2020年3月20日、Yen-Chen LinさんとAndy Zengさんの投稿です。

転移学習とは一体、何なのか？と謎は深まりますが、興味深く感じた方は、Transfusionの話も読んでおくと良いと思います。

アフォーダンスベース(affordance-based manipulation)の操作のための転移学習

アフォーダンスベースの操作とは、本質的に、操作タスクを視覚タスクとして再構成する事です。画素とラベルを紐づけるのではなく、代わりに、画素とアクション値を関連付けます。

視覚タスクモデルとアフォーダンスモデルの構造は非常に似ているため、視覚タスクの転移学習の手法を利用して、アフォーダンスモデルが、より少ないデータでより速く学習できるようにすることができます。このアプローチでは、大規模な視覚タスク用データセットから学習した事前トレーニング済みのニューラルネットワークの重み(つまり、特徴表現)を再利用して、ロボットで把握操作を行うためのアフォーダンスモデルのネットワークの重みを初期化します。

コンピュータビジョンの分野では、多くのディープモデルアーキテクチャは、「バックボーン(backbone)」と「ヘッド(head)」の2つの部分から構成されています。

バックボーンは、尖った部分の識別、曲線の検出、色の区別など、画像処理における初期段階を担当する重みから構成されます。その一方、ヘッドは、各部の関係性(contextual cues)の認識、空間的推論の実行など、後期段階で使用されるネットワークの重みから構成され、高レベルの特徴を識別します。

多くの場合、ヘッドはバックボーンよりもはるかに小さく、タスク固有でもあります。従って、転移学習では、新しいタスクごとにモデルのヘッド部分の重みはランダムに初期化しながら、事前トレーニング(ResNetなど)ではタスク間でバックボーンの重みを共有するのが一般的です。

この慣例に倣い、私達もResNet-50アーキテクチャに基づくバックボーンでアフォーダンスベースの操作モデルを初期化し、ImageNetの分類モデルやCOCOのセグメンテーションモデルなど、様々なビジョンタスクで事前トレーニングをしました。様々に初期化した後、ロボットは試行錯誤を通じて様々な物体を把握する学習を課せられました。

当初、ゼロからトレーニングしたモデルの結果と比較して事前学習後にトレーニングしたモデルの結果は大幅なパフォーマンス向上は見られませんでした。物体把握の成功率は、1,000回の試行錯誤後のテストで77%に上昇しましたが、これはゼロからトレーニングしたモデルを2%上回っているだけでした。

ただし、バックボーンとヘッダの両方に事前トレーニング済みCOCOビジョンモデルのネットワークの重みを転移すると、トレーニング速度が大幅に向上しました。把握率は、わずか500回の試行錯誤で73%に達し、1000回で86%に跳ね上がりました。

更に、トレーニング中には現れなかった未見の物体でモデルをテストしたところ、COCOのトレーニング済みのバックボーンを持つモデルは一般化出来ている事がわかりました。把握成功率は、バックボーンだけが事前トレーニング済みであるモデルで83%に達し、バックボーンとヘッドの両方が事前トレーニング済みのモデルでは更に90%に向上しました。これは、ゼロからトレーニングしたモデルが到達した46%の把握成功率よりも優れています。

ゼロからトレーニングしたアフォーダンスベースの把握モデルは、60分トレーニングした後でも新しい物体を拾うのに苦労する可能性があります。(左)視覚的タスクで事前トレーニングしたアフォーダンスベースの把握モデルは、様々なハードウェア(中央：吸引、右：ロボットハンド)で評価した場合でも、簡単に一般化して10分未満のトレーニングで新しい物体を掴みあげる事ができます。