BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(2/2)

学習手法

1.BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(2/2)まとめ

・定点観測位置保持を成功させるためには、長期視野で計画を処理する必要がある
・夜間飛行は物理的条件や太陽光発電が利用できないため別の困難さが加わる
・強化学習エージェントは専門家が設計したコントローラよりも優れたパフォーマンスだった

2.Balloon Learning Environmentの使い方

以下、ai.googleblog.comより「The Balloon Learning Environment」の意訳です。元記事は2022年2月17日、Joshua GreavesさんとPablo Samuel Castroさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jeison Higuita on Unsplash

定点保持問題

BLEでは、リアルなシミュレーターを作るために(膨大な過去の風データなしに)、過去のデータから学習した変分オートエンコーダ(VAE:Variational AutoEncoder)を用いて、実際の風の特徴に合った風予報データを生成しています。さらに、風雑音モデル(wind noise model)を用いて、気球が実際に遭遇するような現実的な風場を作成します。

高高度気球が風場(windfields)を通過することは、非常に困難なことです。どの高度でも、理想的な風が長く続くことはほとんどなく、優れた気球制御装置は、風柱(wind column)を上下に移動して、より適した風を発見する必要があるのです。

RLの用語では、定点保持問題は部分的に観測可能(partially observable)です。というのも、エージェントは風速の予測データにのみを利用して、その判断を下すためです。エージェントは各高度の風予報と現在の高度の真の風を利用できます。BLEは風の不確実性の概念を含む観測結果を返します。


高高度気球は、さまざまな高度の風を探って、好ましい風を見つける必要があります。BLEが返す観測データには、風予報と気球の高度で測定した実際の風を混ぜており、風予報とその不確かさが含まれています。

状況によっては、気球にとって適切な風がどこにも吹いていないことがあります。このような場合でも、エキスパートエージェントは、風場を迂回して観測位置に向かって飛行することができます。(よくある例としては、ヨットの風上への移動のように気球がジグザグに動く場合です)。以下では、気球を観測位置に近づけるだけでも、かなりのアクロバット飛行が必要であることを示します。


エージェントが定点観測位置保持を成功させるためには、長期視野で計画を処理する必要があります。この場合、StationSeeker(専門家が設計したコントローラ)は、直接ステーションキーピングエリアの中央に向かい、押し出される。一方、Perciatelli44(RLエージェント)は、エリアの端に寄る事で先を見通した計画を立て、より長く範囲内に留まることができます

BLEの定点観測は、夜間は物理的条件や電力事情が変化するため、新たな難しさが加わります。日中、気球の空気ポンプはソーラーパネルで駆動されていますが、夜間は気球に搭載されたバッテリー内のエネルギーを頼っています。夜間に電力を使いすぎると、夜明け前の時間帯に操縦性が悪くなるのが一般的です。そこで、RLエージェントは、午後には高度を下げて潜在的なエネルギーを蓄えるなど、非常にクリエイティブな解決策を見出すことができるのです。


エージェントは、定点観測位置を維持する目的と夜間の有限なエネルギー許容量のバランスをとる必要があります。

これらの課題にもかかわらず、私たちの研究では、強化学習で訓練されたエージェントが、専門家が設計したコントローラよりも定点観測位置の保持で優れたパフォーマンスを学習できることを実証しています。今回、BLEと一緒に、私たちの研究で得られた主なエージェントを公開します。Perciatelli44(RLエージェント)、StationSeeker(専門家設計のコントローラ)です。BLEはあらゆる強化学習ライブラリと組み合わせて使うことができ、DopamineのDQNとQR-DQNエージェント、AcmeのQR-DQNエージェント(Launchpadによるスタンドアロンと分散学習の両方をサポート)が含まれています。


BLEにおけるベンチマークエージェントの評価性能
「FinetunedはPerciatelli44を微調整したエージェント、AcmeはAcmeライブラリで学習させたQR-DQNエージェントです。

BLEのソースコードには、エージェントのトレーニングや評価など、BLEを使い始めるための情報、シミュレータの様々なコンポーネントに関するドキュメント、サンプルコードなどが含まれています。また、VAEのトレーニングに使用した過去の風速データ(TensorFlow DataSetとして)も含まれており、研究者が独自の風速生成モデルを実験することができます。私たちは、このベンチマークでコミュニティがどのような進展を見せるか、とても楽しみにしています。

謝辞

Balloon Learning Environment チームに感謝します。Sal Candido, Marc G. Bellemare, Vincent Dumoulin, Ross Goroshin, そして Sam Ponda。また、このブログ記事の素晴らしいアニメーションとグラフィックデザインを手伝ってくれたTom Small、そして同僚のBradley Rhodes, Daniel Eisenberg, Piotr Staczyk, Anton Raichuk, Nikola Momchev, Geoff Hinton, Hugo Larochelle、その他モントリオールのBrainチームに感謝したいと思います。

3.BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(2/2)関連リンク

1)ai.googleblog.com
The Balloon Learning Environment

2)www.nature.com
Autonomous navigation of stratospheric balloons using reinforcement learning

3)github.com
google / balloon-learning-environment

4)www.tensorflow.org
ble_wind_field

タイトルとURLをコピーしました