モデル Performers:Attentionの規模拡大を容易にする(3/3) 1.Performers:Attentionの規模拡大を容易にする(3/3)まとめ ・PerformerはAttentionをまったく使用していないモデルに非常に近い性能を発揮 ・転移後に微調整すると元の勾配ステップ数のごく一部で精度をすば... 2020.10.28 モデル基礎理論
モデル Performers:Attentionの規模拡大を容易にする(2/3) 1.Performers:Attentionの規模拡大を容易にする(2/3)まとめ ・通常のAttentionは保存されたAttention行列に入力された値を乗算して最終結果を取得 ・Attention行列を分解すれば通常のAttenti... 2020.10.27 モデル基礎理論
モデル Performers:Attentionの規模拡大を容易にする(1/3) 1.Performers:Attentionの規模拡大を容易にする(1/3)まとめ ・Transformerの中心となるAttentionモジュールはデータが長くなると計算が困難になる ・類似性スコアを計算するため指数関数的に計算量と必要メ... 2020.10.26 モデル基礎理論