強化学習

AI関連その他

AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測テクノロジー編(2/3)

1.AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測テクノロジー編(2/3)まとめ・データサイエンスチームは、必要な役割とスキルを分類するようになり細分化が進む・AIを支援する企業は「サービスとしての...
学習手法

GO:グラフ最適化用強化学習(3/3)

1.GO:グラフ最適化用強化学習(3/3)まとめ・GOはオフライントレーニングとわずかな微調整で初見のグラフにも一般化可能・全タスクを一度に最適化するマルチタスクGOはシングルタスクGOより7.8%速度が向上・フレームワークの最適化問題の多...
学習手法

GO:グラフ最適化用強化学習(2/3)

1.GO:グラフ最適化用強化学習(2/3)まとめ・GOはGraphSAGEを利用しておりトレーニング時に見た事がないグラフに対して一般化可能・GOは規模拡大可能なAttentionが含まれノード間の距離が離れていても依存関係を捕捉可・GOは...
学習手法

GO:グラフ最適化用強化学習(1/3)

1.GO:グラフ最適化用強化学習(1/3)まとめ・大規模モデルは多様なアクセラレータが混在する環境でトレーニングされるようになってきた・MLコンパイラは多くの複雑な最適化問題を解決する必要があるが手動設計には限界がある・この制限を克服するた...
入門/解説

グラフニューラルネットワークのわかりやすい紹介(1/3)

1.グラフニューラルネットワークのわかりやすい紹介(1/3)まとめ・グラフニューラルネットワークでは、入力データは「各ノードの元の状態」・ハイパーパラメータとして定義された特定の更新を実行した後、隠れ状態から出力を解析・GNNの更新は2ステ...
AI関連その他

AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測リサーチ編(2/3)

1.AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測リサーチ編(2/3)まとめ・年末恒例のAIやデータサイエンス分野の2020年の進展と2021年のトレンド予測リサーチ編・従来はデータからモデルを学習...
AI関連その他

AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測リサーチ編(1/3)

1.AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測リサーチ編(1/3)まとめ・年末恒例のAI分野の今年の進展と来年のトレンド予測のリサーチ編・2020年の進展はTransformerを使ったGPT-...
学習手法

DVRL:強化学習を使って学習用データの影響を推定(2/2)

1.DVRL:強化学習を使って学習用データの影響を推定(1/2)まとめ・DVRLはデータ価値の推定やノイズ影響の除去で従来手法より優れた成果を出した・学習データが検証/テストデータと異なる分布に由来するドメイン適応シナリオも対応可・データ評...
学習手法

DVRL:強化学習を使って学習用データの影響を推定(1/2)

1.DVRL:強化学習を使って学習用データの影響を推定(1/2)まとめ・全てのデータサンプルがディープラーニングを学習させる際に等しく役立つわけではない・低品質データを削除することでパフォーマンスを向上させる事が出来る場合もある・DVRLは...
モデル

人間による評価を使って要約を学ぶ(3/4)

1.人間による評価を使って要約を学ぶ(3/4)まとめ・初期要約モデル、人間が要約品質を定量化、報酬モデル、RLによる微調整の4ステップで実現・要約品質の定量化はラベル付け作業者に高い報酬と緊密な連携を取る事で実現した・報酬モデルを最適化する...
モデル

人間による評価を使って要約を学ぶ(2/4)

1.人間による評価を使って要約を学ぶ(2/4)まとめ・人間によるフィードバックを使った微調整は他の手法と比較して品質に大きな影響を与えた・Redditの投稿と非常に異なったスタイルで書かれたニュースデータセットにも対応できた・要約の長さを制...
アプリケーション

Menger:大規模な分散型強化学習(3/3)

1.Menger:大規模な分散型強化学習(3/3)まとめ・Reverbが提供する水平分割機能を使用して通信スループットを向上させた・Mengerは複数のBorgセルにまたがる数千人の行為者に効率的に拡張できた・大規模チップ配置タスクにおいて...