1.Google AIプリンストン研究所で行われる現在および将来の研究(2/2)まとめ
・オンライン学習からヒントを得て強化学習の枠組みを広げる研究も行われている
・線形動的システムの推定と制御のためのスペクトルフィルタリングのアルゴリズム手法がその例
・スペクトルフィルタリングは予測と制御を凸最適化問題として再定式化しシステム識別を回避可能
2.制御と強化学習のためのスペクトルフィルタリング
以下、ai.googleblog.comより「Google AI Princeton: Current and Future Research」の意訳です。元記事の投稿は2018年12月18日、Elad HazanさんとYoram Singerさんによる投稿です。前半はこちら。
プリンストンにあるグーグルの研究グループのもう一つの広い使命は、意思決定システムのための基礎的な土台を開発することです。特に、当グループは、オンライン学習で利用可能で説明可能な土台の開発に努めています。それは不確実な状況下での意思決定アルゴリズムの堅牢性の保証に繋がる研究です。
オンラインアルゴリズムは、最高のオフラインアルゴリズムと同等レベルのパフォーマンスを達成できたら、後付けで後悔しない性能と見なせると言われています。この分野からのアイデアはすでに理論的コンピュータ科学の中で多くの革新を可能にしました。ブースティングと呼ばれる広く使われている技術を研究するための数学的に洗練されたフレームワークが提供されています。私達は現在の強化学習のツールで出来る事を増やすためにオンライン学習からアイデアを拝借することを見越しています。
この目標を念頭に置き、プリンストンの研究者や学生と共同で、線形動的システムの推定と制御のためのスペクトルフィルタリングのアルゴリズム手法を開発しました。(「Towards Provable Control for Unknown Linear Dynamical Systems 」など、最近発表したいくつかの出版物を参照)。この実験では、ノイズの多い観測データ(例えば、位置センサ測定値)は未知の情報源からストリーミングされている前提です。信号の発生源は、その状態が一組の線形方程式(例えばニュートンの法則、y=axのように直線で表現できる方程式)に従って時間とともに変化するシステムです。
通常のアプローチは
・予測:将来の信号を見通す事
・制御:システムを望ましい状態にする動作
を実行するために、モデルを明示的に学習すること(システム識別と呼ばれるタスク)から開始しますが、これはしばしば遅く不正確です。
スペクトルフィルタリングは、予測と制御を凸最適化問題として再定式化することによって、モデルの変動を明示的にモデル化する必要性を回避し、証明可能で後悔のない性能保証を可能にします。この技術の主要なアイディアは、新しい信号変換処理です。調整された一連のフィルタと畳み込みによって過去の入力信号の変化を要約し、この要約を使用して動的システムの将来の出力を予測するのです。各フィルタは、前の入力を重み付けして組み合わせ、入力信号を単一の実数に圧縮します。
フィルタの振幅と時間の関係グラフ。私達のスペクトルフィルタリング技術では、複数のフィルターを使用して線形な動的システムの状態を常に予測します。各フィルタは重み付けです。このフィルタを用いて過去の観測値をまとめて、時間の経過と共に正確に予測できるようにします。
これらの重み(フィルタ)の数学的導出は、ハンケル行列(対角線と平行となる行列成分がすべて等しくなっている正方行列のこと)のスペクトル理論と興味深い関係があります。
楽しみな未来
私達はプリンストンの教職員や学生とのパートナーシップによってこれまでに達成した進歩に興奮し、今後、数週間のうちに正式に研究所を開設することを楽しみにしています。産業界と学術界の双方がオープンな研究文化から大きな恩恵を受けるというのはGoogleの見解であり、私達は私達の継続的で密接なコラボレーション共同作業を楽しみにしています。
謝辞
この記事で議論された研究と結果は、次の研究者からの貢献なしには実現できなかったでしょう。Naman Agarwal, Brian Bullins, Xinyi Chen, Udaya Ghai, Tomer Koren, Karan Singh, Cyril Zhang, Yi Zhang, そして客員教授のSham Kakade。今年の初めにグーグルに入社して以来、研究チームはGoogle ニューヨークオフィスとプリンストン大学キャンパスからリモートワークをしており、そして彼らはこれから数週間のうちにプリンストンキャンパスの向かい側の新しいGoogleの研究所に入所する事を楽しみにしています。
(Google AIプリンストン研究所で行われる現在および将来の研究(1/2)からの続きです。)
4.Google AIプリンストン研究所で行われる現在および将来の研究(1/2)関連リンク
1)ai.googleblog.com
Google AI Princeton: Current and Future Research
2)openreview.net
Towards Provable Control for Unknown Linear Dynamical Systems
コメント