transformer

1/12ページ

ELECTRA:NLPの事前トレーニングを効率的に改良(2/2)

AI

1.ELECTRA:NLPの事前トレーニングを効率的に改良(2/2)まとめ ・ELECTRAを他のNLPモデルと比較すると同じ計算量であれば従来の方法よりも大幅にスコアが改善した ・単一GPUで4日間で学習可能でELECTRA-smallはGPTよりも優れたパフォーマンスで計算量は30分の1 ・ELECTRA-LargeはGLUEリーダーボードでRoBERTa、XLNet、およびALBERTを凌駕 […]

組成の一般化能力の測定(3/3)

AI

1.組成の一般化能力の測定(3/3)まとめ ・compound divergenceという新しい指標によりデータセットの難度を数値で表す事ができた ・代表的な3つの標準的なMLアーキテクチャは難度があがるにつれて正確性が直線的にさがってしまう ・従って標準的なMLアーキテクチャは組成を一般化する事が出来ておらず新たなアプローチが必要 2.compound divergence 以下、ai.goog […]

T5:Text-To-Text Transfer Transformerと転移学習の探索(3/3)

AI

1.T5:Text-To-Text Transfer Transformerと転移学習の探索(3/3)まとめ ・T5はクローズドブック質問回答タスクで驚くほど優れており、人間がかなわない程の性能を見せる ・またGPT-2のように人間が読んでも非常に自然に見える文章を生成する能力にも優れている ・特にピーナッツバターへの愛は冷静に読めば絶対まずそうなレシピなのに凄そうに見える迫力を持つ 2.ピーナッ […]

T5:Text-To-Text Transfer Transformerと転移学習の探索(2/3)

AI

1.T5:Text-To-Text Transfer Transformerと転移学習の探索(2/3)まとめ ・NLP用の転移学習に導入されたアイデアと手法を広範囲にわたって調査して有用な知見を多く得た ・体系的な研究から得た最良の方法を組み合わせてGoogle Cloud TPUアクセラレータで規模を拡大 ・最大のモデルはGLUE、SuperGLUE、SQuAD、及びCNN/Daily Mail […]

T5:Text-To-Text Transfer Transformerと転移学習の探索(1/3)

AI

1.T5:Text-To-Text Transfer Transformerと転移学習の探索(1/3)まとめ ・転移学習を用いたNLP関連技術の進歩が速すぎて何が効果的なのか評価することが困難になった ・最も効果的な転移学習手法を調べ、得た洞察を元にT5と呼ばれる新しいモデルを開発 ・T5は多くのNLPベンチマークで最先端の結果を達成し、様々な下流タスクに微調整可能 2.T5とは? 以下、ai.g […]

1 12