TossingBot：物理学と深層学習の統合(2/2)

１．TossingBot：物理学と深層学習の統合(2/2)まとめ

・TossingBotは物理学と深層学習、及び残差物理学を組み合わせて高性能を実現
・残差物理学とは物理学が提供する理論値と現実世界のズレをニューラルネットワークで埋める作業
・ロボットは作業を通じて教師なしで物体の分類を行っており「意味」の概念に迫りつつある

２．Residual Physicsとは？

以下、ai.googleblog.comより「Unifying Physics and Deep Learning with TossingBot」の意訳です。元記事は2019年3月26日、Andy Zengさんによる投稿です。

物理学が世界がどのように機能するかについてのモデルを事前に提供してくれるので、私達はこれらのモデルを利用してロボットのための初期コントローラを開発することができます。例えば、物体を投げる場合、弾道学を使用して、オブジェクトを目標位置に着地させるのに必要な速度の推定値を提供することができます。そして、ニューラルネットワークを使用して、未知のダイナミクス(相互作用)や現実のノイズや変動性を補正し、物理学からの推定値を調整することができます。

私達はこのハイブリッドな定式化をResidual Physics(訳注：敢えて訳すと残差物理学)と呼んでいます。そしてこれはTossingBotが85％の投擲精度を達成することを可能にします。

ランダムに初期化された重みを使ってトレーニングを開始すると、TossingBotは効率の悪い掴み方を繰り返し試みます。しかし、時間が経つにつれて、TossingBotは物体をつかむためのより良い方法を学ぶと同時に投げる能力を向上させます。時折、ロボットは以前に試したことのない速度で物体を投げた場合に何が起こるかをランダムに探ります。

投擲対象が入った容器が空になると、TossingBotは投擲対象を投げ入れた箱を持ち上げ、投擲対象を坂を滑らせて容器に戻すことができます。このようにして、訓練中に人間が世話をする必要性を最小限に抑えます。10,000回の試行回数（時間換算では14時間）で、物体が乱雑に配置されている環境で「物体を投げる事」に関しては85%、「物体を掴む事」に対しては87%の精度を達成しました。

開始当初はTossingBotのパフォーマンスは良くありませんが（左）、一晩学習を続けると次第に掴む事も投げる事も上手に出来るようになります（右）。

学習時に見た事のない物体にも対応できるように作業を一般化
物理学とディープラーニングを統合することによって、TossingBotは今までに見たことのない場所や物体にも素早く適応して投擲作業を開始することができます。たとえば、木製のブロック、ボール、蛍光ペンなどの単純な形状の物体を使って学習した後に、果物の形をした物体や装飾品、オフィス用品など、学習時に出現しなかった未知の物体に対して適切に対応できます。

TossingBotは未知の物体に対して当初は低いパフォーマンスですが、学習時に出現した物体と同程度のパフォーマンスに達するために必要な時間は、わずか数百のトレーニングステップ（つまり1時間または2時間）で素早く対応できます。

物理学とディープラーニング、及び残差物理学を組み合わせることで、基本的な手法（例：物理学を使用しないディープラーニング）よりも優れたパフォーマンスが得られることがわかりました。

実は私達もTossingBotがやっているロボット操作を手動でやってみたのですが、TossingBotは他のいずれのGoogleエンジニアよりも正確に作業を行う事が出来ており、非常に驚きました。運動神経抜群の人とTossingBotを競わせたわけではないので、半信半疑の人は是非試してみてください。

TossingBotは未学習の物体を扱うように作業を一般化することができ、平均的なGoogle社員よりも投擲作業が正確です。

また、学習時に見た事がない投擲対象地点（上図の物体を投げ入れる箱）に対応する能力についても、ポリシーをテストしました。この目的のために、私達は一組の箱セットを目標地点として訓練し、そしてその後、投げ入れ先の穴の構成を変更した別の箱セットで試験しました。

この設定では、発射弾道から投球速度の初期推定値が新しい目標位置に簡単に一般化できるため、投擲用の残差物理学が非常に役立ちます。

残差は、現実世界の様々な物体の属性を補正するために、これらの推定値に基づいて調整を行うのに役立ちます。これは、物理学を使用せずにディープラーニングを使用する基本的な手法とは対照的です。

TossingBotは、見た事がない目標地点に物体を投擲するために残差物理学を使います。

投擲作業から生まれる「意味」(semantics)の概念
TossingBotが何を学んでいるのかを探るために、いくつかの物体を容器に入れ、画像を取り込み、それらをTossingBotの訓練済みニューラルネットワークに送り込み、中間層が認識している画素単位の詳細な特徴を抽出しました。

類似性に基づいてこれらの特徴をクラスタ化し、最も近い近傍をヒートマップとして視覚化する（特徴領域においてより高温の領域ほど類似性が高いことを示しています）ことによって、画像内のすべてのピンポン玉をローカライズすることができます。

オレンジ色のブロックはピンポン玉と同じ色ですが、TossingBotはその特徴を区別しています。同様に、抽出された特徴を使用して、形状と質量が似ていても色が違うすべての蛍光ペンをローカライズすることもできます。

これらの観察結果は、TossingBotが掴む事と投げる事を学ぶ際に、おそらく幾何学的な手がかり（例えば形）を手がかりに学習していることを示唆しています。

学習された機能が物理的特性などの2次属性を反映している可能性もあります。これは、オブジェクトの投げ方に影響を与える可能性があります。

TossingBotは、明確な教師なしに物体のカテゴリを区別する詳細な特徴を学習します。

これらの新しい特徴は、明示的な教師なしに、掴む事と投げる事と言う作業を通じて、ゼロから暗黙的に学習されました。それでも、これらは、システムが物体をカテゴリ（すなわち、ピンポン玉と蛍光ペン）別に区別する事を可能にするために十分であるように思われます。

こうして、この実験はコンピュータビジョンに関連したより広い概念に向かって問い掛けます。「ロボットは視覚から意味をどのように学ぶべきですか？」

古典的なコンピュータビジョンの観点からは、「意味」はしばしば人間がラベル付けした画像データセットと手作業で分類されたクラスカテゴリを使用してあらかじめ定義されています。

しかしながら、私達の実験は、このような物体レベルの「意味」が、それらが実行している作業にとって重要である限り、物理的な相互作用だけから暗黙のうちに学ぶことが可能であることを示唆しています。実行作業が複雑になるほど、学ぶ事が出来る「意味」も詳細になります。

より一般的な知能的ロボットが実現した暁には、おそらくロボットは人間の支援がなくとも、作業を通じて彼ら自身で「意味」の概念を発展させる事が十分可能になるでしょう。

制限事項と今後の研究
TossingBotの結果は有望ですが、それには限界があります。たとえば、投擲対象である物体は、投げられた後の着地の衝撃に耐える十分な堅牢性を持っている事が暗黙的に想定されています。

物体の壊れやすさを考慮に入れた投擲方法を習得したり、他のロボットが空中でキャッチして着地の衝撃を緩和できるような投げ方を訓練するためには、さらなる研究が必要です。

更に、現在のTossingBotは視覚的データからのみ制御パラメータを推測していますが、追加の感覚（例えば何かの力、加速度や触覚）が利用できないか模索することはシステムが新しい対象物により良く反応することを可能にし得るでしょう。

そしてTossingBotを可能にした物理学とディープラーニングの組み合わせは、当然興味深い問い掛けに繋がります。

「残差物理学から他に何が恩恵を受けることができますか？」

このアイデアが他の種類の作業ややりとりにどのように一般化できるかを調べることは、将来の研究にとって有望な方向です。

あなたは以下のビデオでこの研究の概要についてもっと学ぶことができます。

謝辞
この研究は、Andy Zeng、Shuran Song（コロンビア大学の施設）、Johnny Lee、Alberto Rodriguez（MITの施設）、およびThomas Funkhouser（プリンストン大学の施設）によって行われました。また、貴重なサポートを提供してくれた皆さんに特に感謝します。マネージメントサポートを提供してくれたRyan Hickman、実りある技術的な議論を提供してくれたIvan KrasinとStefan Welker、ハードウェアサポートを提供してくれたBrandon HurdとJulian SalazarそしてSean Snyder。Chad RichardsとJason Freidenfeldsは、執筆に関する有益なフィードバックを、Erwin CoumansはPyBulletについてのアドバイスを、Laura Graesserはビデオのナレーションについて、そしてRegina Hickmanは写真についてサポートを提供してくれました。プレプリントの論文はarXivにあります。