generalization

モデル

FindIt:テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)

1.FindIt:テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)まとめ ・3つのタスク全てを同じ入力を取るように適応させ学習の効率化を行った ・全てのタスクに対して標準的な物体検出損失を使ったが驚くほ...
学習手法

PSM:行動の類似性に着目して強化学習の一般化性能を改善(2/2)

1.PSM:行動の類似性に着目して強化学習の一般化性能を改善(2/2)まとめ ・本研究は効果的な特徴表現を学習するために強化学習で固有構造を活用する利点を示した ・ポリシー類似性指標(PSM)と対照指標埋め込み(CME)の提唱によって強化学...
学習手法

PSM:行動の類似性に着目して強化学習の一般化性能を改善(1/2)

1.PSM:行動の類似性に着目して強化学習の一般化性能を改善(1/2)まとめ ・強化学習は意味的に同等なタスク間であっても新タスクへの応用が困難 ・障害物を飛び越えるタスクでは初見の場所に設置された障害物に苦労する ・タスク間で類似している...
モデル

自動進化する強化学習でDDQNを凌駕する(2/2)

1.自動進化する強化学習でDDQNを凌駕する(2/2)まとめ ・発見されたアルゴリズムの中でDQNRegとDQNClippedが優れたパフォーマンスを出した ・これらはDQNが一般的にQ値を過大評価してしまう事を各々の方法で回避している ・...
基礎理論

Deep Bootstrap Framework:データが無限に存在する世界ではディープラーニングはどうなるか?(2/2)

1.Deep Bootstrap Framework:データが無限に存在する世界ではディープラーニングはどうなるか?(2/2)まとめ ・優れたモデルとトレーニングとは、理想世界で迅速で現実世界では迅速すぎない事 ・事前トレーニングの主な効果...
基礎理論

Deep Bootstrap Framework:データが無限に存在する世界ではディープラーニングはどうなるか?(1/2)

1.Deep Bootstrap Framework:データが無限に存在する世界ではディープラーニングはどうなるか?(1/2)まとめ ・通常、モデルは有限のサンプルを使ってトレーニングをされるのでデータは再利用される ・データが無限に存在す...
入門/解説

AttentionAgent:重要度が低い情報を無視する強化学習エージェント(2/2)

1.AttentionAgent:重要度が低い情報を無視する強化学習エージェント(2/2)まとめ ・Attention Agentは主要タスクにとって重要ではない情報を無視するので小規模環境変化に対応可能 ・しかし、背景を猫動画に変更するよ...
学習手法

Dreamer:長期視点で考える事が出来る強化学習(3/3)

1.Dreamer:長期視点で考える事が出来る強化学習(3/3)まとめ ・モデルベースのエージェントは500万フレーム未満、シミュレーション内の28時間で効率的に学習可能 ・モデルフリーのエージェントは学習が遅く1億フレーム、23日間に相当...
入門/解説

人工知能の学習と単なる丸暗記は何が違うのか?

1.人工知能の学習と単なる丸暗記は何が違うのか?まとめ ・人工知能の学習は汎化や一般化と言われれ単なる記憶化とは異なる ・一般化した人工知能は未知の状況に対応できるが単なる記憶では対応できない。 ・CCAと言う手法を使い、一般化と記憶化の違...