学習手法

モデル

人間による評価を使って要約を学ぶ(3/4)

1.人間による評価を使って要約を学ぶ(3/4)まとめ ・初期要約モデル、人間が要約品質を定量化、報酬モデル、RLによる微調整の4ステップで実現 ・要約品質の定量化はラベル付け作業者に高い報酬と緊密な連携を取る事で実現した ・報酬モデルを最適...
モデル

人間による評価を使って要約を学ぶ(2/4)

1.人間による評価を使って要約を学ぶ(2/4)まとめ ・人間によるフィードバックを使った微調整は他の手法と比較して品質に大きな影響を与えた ・Redditの投稿と非常に異なったスタイルで書かれたニュースデータセットにも対応できた ・要約の長...
モデル

RigL:ニューラルネットワークの冗長性を動的に最適化(3/3)

1.RigL:ニューラルネットワークの冗長性を動的に最適化(3/3)まとめ ・RigLのパフォーマンスはトレーニング時間を伸ばすと基本時間の百倍までは常に改善された ・ResNet-50では最先端のtop 1精度、MobileNet-v1で...
モデル

RigL:ニューラルネットワークの冗長性を動的に最適化(2/3)

1.RigL:ニューラルネットワークの冗長性を動的に最適化(2/3)まとめ ・RigLはランダムマスクから開始し大きな勾配を持つ接続をアクティブする ・大きな勾配を持つ接続は損失を最も迅速に減少させることが期待出来るため ・RigLは他の手...
モデル

RigL:ニューラルネットワークの冗長性を動的に最適化(1/3)

1.RigL:ニューラルネットワークの冗長性を動的に最適化(1/3)まとめ ・最新のディープニューラルネットワークアーキテクチャは冗長性が高い場合が多い ・重要度の低い接続を刈り取る事で疎なニューラルネットワークに改良すると性能が上がる ・...
モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)まとめ ・PWILは敵対的手法でないためエージェントとエキスパートを直接類似させる事が可能 ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWIL...
モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)まとめ ・強化学習で報酬関数を設計する事が困難なケースは模倣学習が代替手段となる ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWILは敵対的ト...
学習手法

オフライン強化学習における未解決の課題への取り組み(3/3)

1.オフライン強化学習における未解決の課題への取り組み(3/3)まとめ ・オフラインRLを改善するためには履歴データにない行動を学習する必要がある ・既存手法は履歴データにない行動を過度に過大評価してしまう問題があった ・基本的に悲観的な予...
学習手法

オフライン強化学習における未解決の課題への取り組み(2/3)

1.オフライン強化学習における未解決の課題への取り組み(2/3)まとめ ・D4RLは現実的なアプリケーションを念頭に作られたベンチマークである事が特徴 ・タスクの目的と違う目的を実行した記録から学習する能力などが試される ・タスクと標準化さ...
学習手法

REALM:言語特徴表現モデルに検索機能を持たせる(1/2)

1.REALM:言語特徴表現モデルに検索機能を持たせる(1/2)まとめ ・事前トレーニング済みモデルは世界に関する知識を事前トレーニングで取得する ・モデルの重みの中に抽象化された概念として取り込まれるため取り扱いが困難 ・REALMは学習...
学習手法

Duality:強化学習への新しいアプローチ

1.Duality:強化学習の新しいアプローチまとめ ・既存の強化学習手法であるQ-learningやactor-criticなどは計算が大変な部分は近似値を使っている ・双対性を利用する事により、近似が不要なもっとすっきりとした式に変換す...
学習手法

Context R-CNN:過去に撮影された写真を参照して仕掛けカメラの物体検出能力を改善(2/2)

1.Context R-CNN:過去に撮影された写真を参照して仕掛けカメラの物体検出能力を改善(2/2)まとめ ・Context R-CNNはFaster R-CNNアーキテクチャの中にコンテキストメモリバンクを汲み込んで実現 ・コンテキス...