Soft Actor-Critic：ロボット工学のための深層強化学習(2/2)

１．Soft Actor-Critic：ロボット工学のための深層強化学習(2/2)まとめ

・Soft Actor-Criticは深層強化学習を使いロボットが現実世界で学習する事を可能にする
・従来手法に比べて短時間で学習でき且つ想定外の事態にも対応可能になる設計
・画像を見てバブルを色で指定した方向に回転させる手法も学ばせる事が出来た

２．ロボットにバブルを指定位置に回転させる事を自律的に学習させる試み

以下、ai.googleblogより「Soft Actor-Critic: Deep Reinforcement Learning for Robotics」の意訳です。元記事の投稿は2019年1月18日、Sam Hasinoffさんによる投稿です。前半はこちら。

現実世界には、下図のように、色付きの突起部が右を向くように手でバルブのようなものを回転させる操作が必要になる作業があります。

この課題は「知覚の問題」と「９自由度の手をコントロールする必要」の２つ解決が必要になるために、非常に困難です。バルブを知覚するために、ロボットは右下の挿入画像に示された生のRGB画像を使用しなければなりません。バルブの初期位置は、挑戦開始時に毎回ランダムにリセットされ、現在のバルブの向きを知覚するために生のRGB画像を確認しなければならないように強制されます。

Soft Actor-Criticはこれらの課題の両方を素早く学習します。Minitaurの移動は2時間、そして画像を観察してバルブを回す課題は20時間で学習できました。

また、実際のバルブ位置をポリシーの観察として提供することにより、画像なしでバルブ回転タスクが学習可能なバージョンも開発しました。Soft Actor-Criticは3時間でバルブタスクのこのより簡単なバージョンを学ぶことができました。比較のために言及すると、以前の研究では、画像なしで同じタスクを学習するためにnatural policy gradientsを使い7.4時間かかりました。

まとめ
私達の研究は、最大エントロピーフレームワークに基づく深層強化学習が、困難な現実世界の環境でロボットがスキルを学ぶために適用できることを示しています。ポリシーは現実世界から直接学習されるため、環境の変動に対して堅牢性を示します。そうでなければ、現実世界で学習を継続する事が困難になる可能性があります。

また、高次元の画像を観測する事により直接学ぶことができることも示しました。これは古典的なロボット工学における重要な課題です。SACのリリースによって、他の研究チームが将来、より複雑な実社会のタスクに深層強化学習を採用するのに役立つことを願っています。

技術的な詳細については、BAIRのブログ記事を参照するか、または歩行実験の初期のプレプリントとアルゴリズムのより完全な説明を読んでください。実装はGitHubにあります。

謝辞
この調査は、グーグルとカリフォルニア大学バークレー校の共同研究によって行われました。 Sehoon Ha、Kristian Hartikainen、Jie Tan、George Tucker、Vincent Vanhoucke、Aurick Zhouなど、関係してくれたすべての人々に感謝します。

(Soft Actor-Critic：ロボット工学のための深層強化学習(1/2)からの続きです)

3．Soft Actor-Critic：ロボット工学のための深層強化学習(2/2)

強化学習はReinforcement Learning、片仮名で書けばレインフォースメントラーニング、もしくはリインフォースメントラーニング。深層学習はDeep Learning、片仮名で書けばディープラーニング。

しかし、日本語だと「強化学習」と「ディープラーニング」が市民権を得ている呼ばれ方で、実は漢字優先とカタカナ優先でかなり統一感がありません。Googleでの検索概算は下記。

“深層学習”
約 1,130,000 件（0.60 秒）

“ディープラーニング”
約 5,110,000 件（0.45 秒）

“強化学習”
約 546,000 件（0.41 秒）

“レインフォースメントラーニング”
約 38 件（0.33 秒）

“リインフォースメントラーニング”
約 208 件（0.32 秒）

“レインフォースラーニング”
7 件（0.28 秒）

“リインフォースラーニング”
約 3 件（0.27 秒）

今回のように「ディープラーニングが主流になった後の強化学習」の意味で、Deep Reinforcement Learningという単語の使われ方を稀に見かけるのですが、従来の訳語を踏襲すれば「ディープ強化学習」になるはずと思うのですが、やっぱりかなり違和感を感じてしまうので深層強化学習にしました。

“ディープ強化学習”
約 111 件（0.34 秒）

“ディープリインフォースメントラーニング”
約 105 件（0.32 秒）

“深層強化学習”
約 147,000 件（0.46 秒）

ディープラーニングを深層学習と呼ぶのをあまり聞いた事のない方もいるかもしれませんが、本のタイトルにもなっているので、一定の市民権を得ていると考えられます。しかし、強化学習をリインフォースメントラーニングと表記している例はほぼ見た事がなく、ディープリインフォースメントラーニングよりは深層強化学習の方が良いのかなと。それとも違和感など無視して「ディープ強化学習」で押し通すべきであったのかなどなど、SACの凄い可能性より、日本語訳に頭を悩ませてしまいました。