reinforcement learning

学習手法

PAIRED:3つのエージェントを使って強化学習の効率を向上(1/2)

1.PAIRED:3つのエージェントを使って強化学習の効率を向上(1/2)まとめ ・強化学習でシミュレートされたトレーニング環境を利用するケースが近年増加している ・シミュレート環境の弱点は作成される環境が多様性を欠く事であり環境の自動構築...
モデル

Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(2/2)

1.Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(2/2)まとめ ・Atariベンチマークには3つのパフォーマンス計測基準が存在するが一長一短であった ・Clipped Record Meanと言う従来手法より人...
モデル

Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(1/2)

1.Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(1/2)まとめ ・従来のモデルベース強化学習はモデルフリーアプローチに正確性で劣った ・Dreamer V2はAtariベンチマークで人間レベルのパフォーマンスを...
学習手法

World Models Library:強化学習で将来の画像を予測する事に意味はあるのか?(2/2)

1.World Models Library:強化学習で将来の画像を予測する事に意味はあるのか?(2/2)まとめ ・エージェントが予測する画像の画素数が増えるとパフォーマンスは一般的に向上 ・報酬予測の精度とエージェントのパフォーマンスの間...
学習手法

World Models Library:強化学習で将来の画像を予測する事に意味はあるのか?(1/2)

1.World Models Library:強化学習で将来の画像を予測する事に意味はあるのか?(1/2)まとめ ・原則として強化学習で計画立案に厳密に必要なのは、将来の報酬を予測することだけ ・しかし、最近の多くの強化学習手法で将来の画像...
AI関連その他

Google Research:2020年の振り返りと2021年以降に向けて(3/5)

1.Google Research:2020年の振り返りと2021年以降に向けて(3/5)まとめ ・機械学習アルゴリズムや基礎理論の研究により効率的な手法の探求が前進 ・強化学習は履歴データの利用やサンプル効率の向上、適用分野の拡大 ・Au...
学習手法

GO:グラフ最適化用強化学習(3/3)

1.GO:グラフ最適化用強化学習(3/3)まとめ ・GOはオフライントレーニングとわずかな微調整で初見のグラフにも一般化可能 ・全タスクを一度に最適化するマルチタスクGOはシングルタスクGOより7.8%速度が向上 ・フレームワークの最適化問...
学習手法

GO:グラフ最適化用強化学習(2/3)

1.GO:グラフ最適化用強化学習(2/3)まとめ ・GOはGraphSAGEを利用しておりトレーニング時に見た事がないグラフに対して一般化可能 ・GOは規模拡大可能なAttentionが含まれノード間の距離が離れていても依存関係を捕捉可 ・...
学習手法

DVRL:強化学習を使って学習用データの影響を推定(2/2)

1.DVRL:強化学習を使って学習用データの影響を推定(1/2)まとめ ・DVRLはデータ価値の推定やノイズ影響の除去で従来手法より優れた成果を出した ・学習データが検証/テストデータと異なる分布に由来するドメイン適応シナリオも対応可 ・デ...
学習手法

DVRL:強化学習を使って学習用データの影響を推定(1/2)

1.DVRL:強化学習を使って学習用データの影響を推定(1/2)まとめ ・全てのデータサンプルがディープラーニングを学習させる際に等しく役立つわけではない ・低品質データを削除することでパフォーマンスを向上させる事が出来る場合もある ・DV...
モデル

人間による評価を使って要約を学ぶ(1/4)

1.人間による評価を使って要約を学ぶ(1/4)まとめ ・人間による評価を強化学習に取り込んで優れた要約文を書き上げる言語モデルを開発 ・人間による評価モデルは巨大な教師ありモデルや人間が作成した要約よりも優れていた ・本研究は長期的にはAI...
アプリケーション

Menger:大規模な分散型強化学習(1/3)

1.Menger:大規模な分散型強化学習(1/3)まとめ ・RLとはデータ収集とトレーニングのループだが規模拡大すると反復処理が追いつかなくなる ・Mengerは大規模な分散RLインフラであり複数クラスタにより規模拡大が可能 ・TPUを使用...