学習手法

ロボット

Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3)

1.Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3)まとめ ・Braxは「シミュレーション時に分岐が発生しない」ことを保証する事で効率化を実現 ・計算が厳密に同じであるため複雑さを軽減でき、...
ロボット

Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(1/3)

1.Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(1/3)まとめ ・強化学習は単純なタスクでも習熟するために数百万から数十億のデータが必要になる ・大規模分散システムを使えば迅速に強化学習をトレー...
アプリケーション

SSD:半教師あり蒸留を使ってGoogle検索を改善(2/2)

1.SSD:半教師あり蒸留を使ってGoogle検索を改善(2/2)まとめ ・Noisy Studentとknowledge distillationは似ているが後者はノイズを混入しない ・半教師あり蒸留は、生徒に蒸留する前に同等以上の規模の...
アプリケーション

SSD:半教師あり蒸留を使ってGoogle検索を改善(1/2)

1.SSD:半教師あり蒸留を使ってGoogle検索を改善(1/2)まとめ ・以前の半教師あり学習はラベル有データが豊富な場合は完全教師あり学習と競合できなかった ・Noisy Studentは高データ体制でうまく機能する半教師あり学習でモデ...
学習手法

深層強化学習研究の計算コストの削減(2/2)

1.深層強化学習研究の計算コストの削減(2/2)まとめ ・従来の制御環境ではRainbowの論文と異なり分散RLは単体では性能向上に貢献しなかった ・Rainbowに採用された各アルゴリズムの貢献度は適用環境ごとに異なる可能性がある ・計算...
学習手法

深層強化学習研究の計算コストの削減(1/2)

1.深層強化学習研究の計算コストの削減(1/2)まとめ ・Rainbowは深層強化学習飛躍のきっかけとなったDQNに更に様々な改良を加えたアルゴリズム ・強化学習で論文掲載レベルの検証を行うためにはGCP換算で500万円の高いコストが必要 ...
アプリケーション

Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(2/2)

1.Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(2/2)まとめ ・ゲーム開発者は使用するAPIの組み合わせからどのモデルを選択すべきかわかる ・FPS、TPS、レーシング、シューティングゲームなどで制御スキームをモデリン...
アプリケーション

Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(1/2)

1.Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(1/2)まとめ ・機械学習はゲーム開発に大きな影響を与える可能性があるが実務に応用はまだ難しい ・ゲーム開発者がゲームテストエージェントを迅速かつ効率的にトレーニングする手...
学習手法

SimGAN:敵対的強化学習を使い正確な物理シミュレータを構築(2/2)

1.SimGAN:敵対的強化学習を使い正確な物理シミュレータを構築(2/2)まとめ ・GANは現実世界の軌道と区別できない合成軌道を生成するためにも使用できる ・これによりシステム同定を手動ではなくGANを使用して実行する事ができる ・Si...
学習手法

SimGAN:敵対的強化学習を使い正確な物理シミュレータを構築(1/2)

1.SimGAN:敵対的強化学習を使い正確な物理シミュレータを構築(1/2)まとめ ・物理シミュレーションはロボットがスキルを習得するための活動の場を提供する ・現実のロボットの動きを元により正確な物理シミュレーターを開発できないか考えた ...
学習手法

HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(2/2)

1.HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(2/2)まとめ ・HuBERTは完全に音声データだけでトレーニングされたNLPシステムを開発するのに役立つ ・AI音声アシスタントは人が発音するニュアンスや感情を考慮し...
学習手法

HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(1/2)

1.HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(1/2)まとめ ・他の人の話を聞いたり交流するだけで音声をよりよく認識して学習するAIは大きな目標 ・実現には単語だけでなく話者の個性、感情、割り込みなど、多くを分析す...