PWIL：敵対的トレーニングに依存しない摸倣学習(1/2)

１．PWIL：敵対的トレーニングに依存しない摸倣学習(1/2)まとめ

・強化学習で報酬関数を設計する事が困難なケースは模倣学習が代替手段となる
・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定
・PWILは敵対的トレーニングに依存せず摸倣元データが少なくとも対応可能な摸倣学習

２．PWILとは？

以下、ai.googleblog.comより「Imitation Learning in the Low-Data Regime」の意訳です。元記事の投稿は2020年9月15日、Robert DadashiさんとLéonard Hussenotさんによる投稿です。

Wassersteinでは画像が思いつかないのでEarth Moverっぽいイメージで選んだアイキャッチ画像のクレジットはPhoto by Fabrizio Verrecchia on Unsplash

強化学習(RL:Reinforcement Learning)は、試行錯誤によりエージェントをトレーニングし、複雑な環境で順次意思決定を行うパラダイムです。これは、ゲーム、ロボット操作、半導体チップ設計など、多くの分野で大きな成功を収めています。

エージェントは通常、環境内で収集する報酬の合計を最大化することを目指しています。これは、速度、好奇心、美意識(aesthetics、画像トリミング用の強化学習などで使われます)などの様々なパラメーターに基づくことができます。ただし、特定のRLでは報酬関数を設計する事は、報酬の指定、または報酬のタイミングがまばらすぎるため困難です。

そのような場合、注意深く設計された報酬関数ではなく、エキスパートが行ったデモンストレーションからタスクを解決する方法を学ぶ模倣学習(IL:Imitation Learning)が代替手段となります。ただし、最先端のIL手法は、最小/最大の最適化手順を使用する敵対的トレーニング(adversarial training)に依存しているため、アルゴリズム的に不安定で、展開が困難です。

論文「Primal Wasserstein Imitation Learning(PWIL)」では、敵対的トレーニングに依存しない、Earth Mover’s Distance(EMD:二つの分布の間の距離を測る手法)とも呼ばれる、ワッサースタイン距離(Wasserstein distance)の原形に基づく新しいIL手法を導入します。

MuJoCoの一連のタスクを使用して、エキスパートを模倣することにより、PWIL手法の有効性を示します。PWILは限られた数のデモンストレーション(1つのデモでも可)と環境と限られた数の相互作用をシミュレートするだけでこれを達成できます。

左：ヒューマノイドタスクを行うエキスパートのデモ。このアルゴリズムはタスクの真の報酬(速度に関連しています)に基いて訓練されました。
右：PWILでエキスパートのデモを参照してトレーニングされたエージェント

敵対的模倣学習
最先端の敵対的摸倣学習(Adversarial Imitation Learning)は、敵対的生成ネットワーク(GAN)と同様に動作します。ジェネレータ(ポリシー)は、「エージェントの状態とアクションのペア」と「エージェントの状態とアクションのペア」を区別するように訓練されているディスクリミネータ(報酬)を混乱させるようと試みます。

敵対的な摸倣学習手法は、分布マッチング問題、つまり、「確率分布間の距離を最小化する問題」にまで煮詰められます。ただし、GANと同様に、敵対的な摸倣学習手法は最小/最大最適化問題に依存するため、トレーニングの安定性に関する多くの課題が伴います。