AttentionAgent：重要度が低い情報を無視する強化学習エージェント(2/2)

１．AttentionAgent：重要度が低い情報を無視する強化学習エージェント(2/2)まとめ

・Attention Agentは主要タスクにとって重要ではない情報を無視するので小規模環境変化に対応可能
・しかし、背景を猫動画に変更するような劇的に変化した環境にまだ対応できない制限がある
・複雑なタスクには不十分なため、より意味のある特徴を学習する事が今後の研究課題となる

２．AttentionAgentの一般化性能

以下、ai.googleblog.comより「Using Selective Attention in Reinforcement Learning Agents」の意訳です。元記事の投稿は2020年6月18日、Yujin TangさんとDavid Haさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Gavin Allanwood on Unsplash

今まで見た事のない変化した環境に対応する一般化能力
Attention Agentは分割した入力画像の特定範囲ではなく、様々な範囲に注意を払う事を学びました。

Attention Agentが重要視した範囲を可視化する事は、エージェントがどのように意思決定を行っているのかを垣間見せます。ほとんどの選択には意味があり、人間の直感と一致しているため、開発中のエージェントを分析およびデバッグするための強力なツールとなります。

更に、エージェントは主要タスクにとって重要ではない情報を無視することを学んだため、小規模な変更が環境に適用されてもタスクを一般化できます。

以下では、重要視された範囲のみにアクセスできるようにエージェントの意思決定コントローラーを制限し、その他の範囲を無視する事で、より一般化できていることを示しています。

これは単に「見る事」、つまりエージェントを混乱させる可能性を持つ視覚情報が制限されているためです。私たちのエージェントは、VizDoom TakeCover環境のみを使ってゲーム内で生存するように訓練されていますが、ゲーム内環境を変更し、高い壁に囲まれていたり、床面が異なる質感であったり、または画面内に気を散らすような信号が配置されているような、訓練時とは異なる初見の環境でも生き残ることができます。

DoomTakeCoverの一般化
AttentionAgentを変更していない環境でトレーニングします(左端)
高い壁(左から2つ目)、異なった床面(右から２つめ)、空中に表示されるメッセージ(右端)などの環境の変化に適応できます。

人は晴れた日に運転する事を学ぶと、その運転スキルを夜間運転、雨の日の運転、別の車の運転、またはフロントガラスに鳥の糞がある車の運転などに(ある程度)転移する事ができます。

AttentionAgentはCarRacing-v0を解く事ができるだけでなく、明るいまたは暗い風景、サイドバー、背景の塊などの人造物によって視界が変更されるなど、今まで見た事がない状況でも同等のパフォーマンスを実現できます。必要なパラメーターは従来手法の1000分の1ですが、従来手法は一般化に失敗していました。

CarRacingの一般化
左：変更なし
中央左：色を微妙に変更
中央右：左と右に縦棒
右：赤い塊を追加

制限とこれからの研究
AttentionAgentは環境の様々な変化に対応できますが、このアプローチには制限があり、エージェントの一般化機能をさらに強化するために行う必要のある研究は多くあります。

例えば、AttentionAgentは、劇的に背景が変化する場合に対応できません。元のカーレース環境、つまり、緑の芝生の背景でトレーニングされたエージェントは、気が散るようなYouTubeビデオを背景に置き換えられると、一般化できないのです。

これを更に一歩進め、背景を純粋な均一ノイズ動画に置き換えると、エージェントの注意モジュールが故障し、道路周辺部分ではなく、ランダムなノイズ部分のみに注意を払うようになる事がわかります。

また、ノイズの多いバックグラウンド環境でエージェントを最初からトレーニングすると、パフォーマンスは平凡ですが、なんとか道路に沿って進む事ができます。興味深いことに、この場合もエージェントは道路ではなくノイズのみに注意を払っています。画面の左右に存在するノイズ化した範囲が選択された数に基づいて車線がどこにあるかを推定し、運転を学んだようです。

AttentionAgentは、大幅に変化する環境に対応できません。
左：背景が突然、猫動画になった場合(猫動画はクリエイティブ・コモンズビデオより引用)
中央：背景が突然、アーケードゲーム動画になった場合(クリエイティブコモンズビデオより引用)
右：AttentionAgentは、ノイズ範囲を避ける事で、背景が純粋にノイズ動画であっても車を操作する事を学びました。

重要な範囲から情報を抽出するために今回使用した単純化した手法は、より複雑なタスクには不十分な場合があります。より意味のある特徴を学習するためにはどのようにすれば良いでしょうか？もしかしたら、視覚的な入力からシンボリックな情報を抽出する方法さえも、将来の研究の方向性として刺激的かもしれません。

研究コミュニティへのコードを公開し、オープンソース化した事に加えて、様々な環境変化を伴う一連の自動車レースタスクであるCarRacingExtensionをリリースしました。これは、エージェントの一般化に関心のあるML研究者向けの試験環境およびベンチマークです。

謝辞
この研究は、Yujin Tang, Duong Nguyen, および David Haによって行われました。
貴重な議論をしてくださったYingtao Tian, Lana Sinapayen, Shixin Luo, Krzysztof Choromanski, Sherjil Ozair, Ben Poole, Kai Arulkumaran, Eric Jang, Brian Cheung, Kory Mathewson, Ankur Handa, 及びJeff Deanに感謝いたします。