Grasp2Vec：物体を掴む事により認知能力を高める自己監視型強化学習(1/2)

１．Grasp2Vec：物体を掴む事により認知能力を高める自己監視型強化学習(1/2)まとめ

・人間は誰にも教えられなくとも物を掴み、それを認知できるようになる
・Grasp2Vecはこの掴む事と認知機能の関係性に着目した
・自己監視型強化学習は報酬に知覚的理解が関係するので報酬関数の設計が難しい

２．掴む事と様々な認知機能の発達の関係

以下、ai.googleblog.comより「Grasp2Vec: Learning Object Representations from Self-Supervised Grasping」の意訳です。元記事は2018年12月11日、Eric JangさんとColine Devinさんによる投稿です。後半はこちら。

非常に幼い頃から、人々は、やり方を明示的に教えられていないにもかかわらず、自分の好きな物を認識して、拾い上げることができます。認知発達の研究によれば、現実世界の物体と触れ合う事は、物体を認識する能力や操作する能力の出現に重要な役割を果たします。

周辺の世界と交流することで、人々は自己学習することができます。私たちは自分がどのような行動を取ったのかを知っているので、その結果から学ぶ事ができます。ロボット工学では、このタイプの自己監視型学習は、ロボットシステムを大量の訓練データや人間による監督を必要とせずに学習させる事ができるため、積極的に研究されています。

Object permanence(対象の永続性:目や耳で認知できなくても物体は確かにそこに存在すると認知できる事。「いないいないばあっ！」を幼児が喜ぶのはObject permanenceの認知機能が発達していないから)の概念に触発されて、私達は物体表現を取得するためのシンプルだが非常に効果的なアルゴリズムであるGrasp2Vecを提案します。

Grasp2Vecは、何かを拾おうとする試みは様々な情報を提供するという直感に基づいています。ロボットが物体をつかんで持ち上げているとしたら、物体は掴まれる前にロボットの視覚内に存在していなければなりません。更に、ロボットは掴んでいる物体が現在グリッパ(ロボットアームの手のひらの部分)にあり、そのために物体が視覚外になった事を知る事ができます。このように、見えている風景が物体を掴んだ前後で変化する事を利用してロボットは、物体を認識する事ができるのです。

X Robotics社との一連の共同研究では、ロボットを単眼カメラの入力のみを使用して家庭内にある物を掴むように訓練させました。ロボットはロボットアームを使用して物体を「意図せずに」掴み、その経験により豊かな物体認知機能を学習したのです。そして、これらの経験と認知を利用して「意図的に掴む」事を学習させることができます。これにより、ロボットのアームはユーザが指示した物体を掴む事ができるようになります。

知覚に関する報酬関数の構築
強化学習では、AIが与えられた目標が成功したか否かは「報酬関数」によって測定されます。報酬関数によって定義された報酬を最大限にしようとして、ロボットはさまざまな物体を掴むスキルをゼロから学ぶことができます。簡単なセンサを使って成功有無を測定することができるのであれば、報酬関数の設計は簡単です。例えば簡単な例としては、押したときにロボットに直接報酬を与えるボタンです。

しかし、成功したか否かの判断が知覚的理解に依存するとき、報酬関数の構築は非常に困難です。ある物体を掴むタスクについて考えてみましょう。ロボットは掴むべき目標物を画像で指示されます。ロボットが物体を掴んだ後、グリッパに目標の物体が収まっているかがチェックされます。つまり、このタスクの報酬関数は以下の問に答える事が必要になります。「目標として指示した物体とロボットがグリッパで掴んだ物体は同じ物体ですか？」

左図：グリッパがブラシを保持しています。背面にはいくつかの他の物体(黄色いカップ、青色のプラスチックブロック)があります。右図：グリッパは黄色のカップを保持していて、ブラシは背景に写っています。ロボットが受けた指示がブラシを掴む事、つまり左の画像があるべき結果であった場合、上の2つの画像がそれぞれ違う物体を保持している画像である事を優れた報酬関数は「理解する」必要があります。(訳注：しかし、人間でも右図ではブラシが奥にあって掴めていない事を間違ってもおかしくないくらいブラシがはっきり写ってしまっているので報酬関数の設計が難しいですね、というお話です)