BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(1/2)

１．BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(1/2)まとめ

・機械学習の進歩の原動力となってきたのが、成果を測定可能なベンチマークテストの存在
・高高度気球の制御という実世界の問題を扱う新しい強化学習用ベンチマークBLEを公開
・気球は高度は調整可能だが横方向への推進力はないので風を利用して制御する必要がある

２．Balloon Learning Environmentとは？

以下、ai.googleblog.comより「The Balloon Learning Environment」の意訳です。元記事は2022年2月17日、Joshua GreavesさんとPablo Samuel Castroさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jeison Higuita on Unsplash

機械学習(ML:Machine Learning)の進歩の原動力となってきたのが、ベンチマークへの挑戦です。特に、強化学習(RL:Reinforcement Learnin)の難しいベンチマーク環境は、研究者にますます難しい課題を克服させることで、この分野の急速な進歩に不可欠なものとなっています。アーケードゲーム用の学習環境や多関節ロボット用のMujocoなどは、RLアルゴリズム、特徴表現学習、探査などの限界を押し広げるために利用されてきました。

2年前にNature誌に掲載された「Autonomous Navigation of Stratospheric Balloons Using Reinforcement Learning」では、深層強化学習(Deep Reinforcement Learning)を用いて、現実世界で成層圏に到達可能な高高度気球を制御できる高性能な飛行エージェントを作成できることを実証しました。この研究は、深層RLがシミュレーション環境以外でもうまく適用できることを確認し、RLアルゴリズムと複雑な力学系を統合する際の実用的な知見に貢献しました。

本日、高高度気球の制御という実世界の問題をエミュレートする新しいベンチマーク、Balloon Learning Environment(BLE)をオープンソースでリリースすることをお知らせします。BLEは忠実度の高いシミュレータであり、研究者にとって深層RL研究のための貴重なリソースとなる事を期待しています。

成層圏気球による定点観測

成層圏気球は、浮力のあるガスで満たされているため、旅客機の巡航高度の約2倍の高さにある成層圏を数週間から数ヶ月間浮遊することができます。成層圏気球にはさまざまな種類がありますが、BLEの気球はソーラーパネルとバッテリーを搭載しており、電動ポンプでバラスト内の空気の重さを調節することで高度を調整することができます。しかし、横方向への推進力はないため、周囲の風向きに左右されます。

成層圏の気球は、高度を変えることで、さまざまな方向に吹く風をとらえることができるのです。

BLEのエージェントの目標は、固定された地上局から50km以内に入るように気球を制御し、好ましいと思われる風を捉えて高度を変化させるステーションキープです。エージェントがどれだけ定点観測に成功したかは、気球が指定した地点の半径50km内にいる時間の割合(TWR50:time within a radius of 50km)を測定することによって評価します。