ベンチマーク

1/16ページ

SEED RLによる大規模強化学習(1/3)

AI

1.SEED RLによる大規模強化学習(1/3)まとめ ・強化学習手法は単純なゲームでも学習するために更に多くのトレーニングが必要になってきている ・SEED RLは、数千のマシン上で規模を拡大して実行できる新しい強化学習エージェント ・推論の集中化し、高速通信レイヤーを導入し、大規模なアクセラレータ(GPUまたはTPU)を利用する事で、新しいアーキテクチャーによって実現 2.SEED RLとは? […]

Dreamer:長期視点で考える事が出来る強化学習(3/3)

AI

1.Dreamer:長期視点で考える事が出来る強化学習(3/3)まとめ ・モデルベースのエージェントは500万フレーム未満、シミュレーション内の28時間で効率的に学習可能 ・モデルフリーのエージェントは学習が遅く1億フレーム、23日間に相当する時間を必要とする ・Dreamerは現在の最高のモデルフリーエージェントの平均スコアを20倍少ない学習時間で達成 2.Dreamerの性能 以下、ai.go […]

Dreamer:長期視点で考える事が出来る強化学習(2/3)

AI

1.Dreamer:長期視点で考える事が出来る強化学習(2/3)まとめ ・強力な世界モデルでさえ、正確に予測できる範囲が限られており多くは近視眼的だった ・Dreamerは、バリューネットワークとアクターネットワークでこの制限を克服 ・Dreamerは、計画と行動を切り離すことによりPlaNetが持つ高価な検索コストを回避 2.DreamerとPlaNetの違い 以下、ai.googleblog. […]

Dreamer:長期視点で考える事が出来る強化学習(1/3)

AI

1.Dreamer:長期視点で考える事が出来る強化学習(1/3)まとめ ・世界モデルを使用しない強化学習は学習に大量の試行錯誤と時間が必要なため実用性が制限される ・世界モデルを使用する強化学習もプランニングメカニズムがネックになり能力が制限されている ・既存モデルを改良し長期視点から最適な行動を学習出来る強化学習エージェントDreamerが発表 2.Dreamerとは? 以下、ai.google […]

ELECTRA:NLPの事前トレーニングを効率的に改良(1/2)

AI

1.ELECTRA:NLPの事前トレーニングを効率的に改良(1/2)まとめ ・既存のNLP用の事前トレーニング手法には言語モデルとマスク言語モデルの2種類がある ・マスク言語モデルは双方向なので言語モデルより優位だが入力文の全てを学習に利用できない欠点がある ・ELECTRAはRTDと呼ばれる新しい手法で両者の良いところを取り入れ少ないデータで効率的な学習が可能 2.ELECTRAとは? 以下、a […]

1 16