reinforcement learning

学習手法

Scaled Q-learning:強化学習も大規模言語モデルみたいに事前学習をしたいです(2/2)

1.Scaled Q-learning:強化学習も大規模言語モデルみたいに事前学習をしたいです(2/2)まとめ ・Scaled Q-Learningは強化学習であるにも関わらず規模を拡大する事が有利になるべき乗スケーリング特性を持っている ...
学習手法

Scaled Q-learning:強化学習も大規模言語モデルみたいに事前学習をしたいです(1/2)

1.Scaled Q-learning:強化学習も大規模言語モデルみたいに事前学習をしたいです(1/2)まとめ ・強化学習は学習結果の流用が難しく、ゼロから学習するのは非常にお金がかかるので敷居を下げる様々な工夫が考案されている ・Scal...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~ロボット編~(1/2)

1.2022年のGoogleのAI研究の成果と今後の展望~ロボット編~(1/2)まとめ ・大規模で汎用的な言語モデルを他のアプローチと連携し、ロボットが人間の幅広い知識から学習して自然に関わり合えるようにする能力を探求 ・これにより「ロボッ...
モデル

ChatGPT:フェルマーの小定理をテーマに五行詩を作ってみせる言語モデル(2/2)

1.ChatGPT:フェルマーの小定理をテーマに五行詩を作ってみせる言語モデル(2/2)まとめ ・現在のChatGPTにはまだ制限があり不正確または無意味な答えを書くことがある ・不明瞭な質問の意図を聞きなおす事も稀でユーザーの意図を推測す...
学習手法

RRL:他のエージェントの学習記録を転移する転生強化学習(2/2)

1.RRL:他のエージェントの学習記録を転移する転生強化学習(2/2)まとめ ・RRLでは教師にポリシーベースRL、生徒をバリューベースRLにする事も可能 ・RRLは教師への非依存、教師からの脱却、計算・サンプルの効率化を実現 ・ゼロから学...
学習手法

RRL:他のエージェントの学習記録を転移する転生強化学習(1/2)

1.RRL:他のエージェントの学習記録を転移する転生強化学習(1/2)まとめ ・強化学習の主流は既存知識を用いずにゼロから効率的に学習するタブラ・ラサ ・タブラ・ラサはアルゴリズムやアーキテクチャ変更時にゼロからやり直しが必要 ・RRLは既...
ロボット

Table Tennis:俊敏な動きを研究するためにロボットと卓球をする(2/2)

1.Table Tennis:俊敏な動きを研究するためにロボットと卓球をする(2/2)まとめ ・実データだけで学習する事が望ましい場合もあるが既存手法には問題があった ・GoalsEyeでは行動クローニング技術を組み合わせて徐々に継続的に学...
ロボット

Table Tennis:俊敏な動きを研究するためにロボットと卓球をする(1/2)

1.Table Tennis:俊敏な動きを研究するためにロボットと卓球をする(1/2)まとめ ・卓球は人間や他のロボットと対戦できるので強化学習の試験環境として有用 ・モデルがなければデータが収集できないがデータがなければモデルの学習は不可...
学習手法

QuaRL:強化学習を量子化して高速化と環境負荷を低減(2/2)

1.QuaRL:強化学習を量子化して高速化と環境負荷を低減(2/2)まとめ ・ActorQでトレーニングの大幅な高速化と性能の維持が可能な事が確認された ・ポリシーの量子化で1.9倍から3.76倍まで炭素排出量の削減も確認された ・今後は他...
学習手法

QuaRL:強化学習を量子化して高速化と環境負荷を低減(1/2)

1.QuaRL:強化学習を量子化して高速化と環境負荷を低減(1/2)まとめ ・深層強化学習は逐次意思決定問題大きな進展を続けているが学習時間が長い ・計算負荷が高い事により温室効果ガスの総排出量も多くなってしまう ・量子化を適用する事で性能...
モデル

PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(2/2)

1.PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(2/2)まとめ ・ポリシーの学習には10台のロボットで11ヶ月間収集したデモデータ+αを使用 ・更にシミュレーションでオンラインデータを収...
モデル

MPNAS:写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(1/2)

1.MPNAS:写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(1/2)まとめ ・視覚タスクではデータ領域が写真や絵画などで異なる場合は別々にモデルを学習させる事が多い ・異なる領域を共同で学習させる試みはマルチドメイ...