nlp

Flan Collection：指示調整用のデータセットを更に充実(2/2)

１．Flan Collection：指示調整用のデータセットを更に充実(2/2)まとめ・Flan 2022を使って微調整したFlan-T5モデルは他の先行研究を上回る強力な汎用NLP推論器を実現できる事を示した・単一タスクに特化した微調...

2023.02.06

データセット

機械学習が学習時に抜け道を見つけてズルをしてしまう事を防止(2/2)

１．機械学習が学習時に抜け道を見つけてズルをしてしまう事を防止(2/2)まとめ・最も単純な顕著性評価法Gradient L2がBERTベースのモデルに対して良い結果・あるモデルでうまくいく方法が、他のモデルでうまくいかないこともある・...

2022.12.14

AI基礎理論

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(2/2)

１．Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(2/2)まとめ・指示微調整とは指示形式で表現されたデータセットでLMを微調整する事・指示微調整は1800タスクで実施し場合でもわずかな計算量しか必要としない・...

2022.12.02

モデル

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)

１．Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)まとめ・巨大言語モデルを学習させるためには膨大な計算資源を必要でハードルが高い・膨大な計算資源を使わずに既存モデルを大幅に改善する2つの手法を提案・U...

2022.12.01

モデル

人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(2/2)

１．人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(2/2)まとめ・創発的なプロンプトは小さなモデルで失敗し十分に大きなモデルで成功する・思考連鎖のプロンプトは創発的であり小さいモデルでは標準プロンプトに劣る ...

2022.11.18

基礎理論

人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(1/2)

１．人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(1/2)まとめ・大きな人工知能の性能は小さな人工知能の性能傾向を元に予測可能な事が多い・ある種のタスクは人工知能が特定のサイズを超えると突然性能が向上し始める...

2022.11.17

基礎理論

UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)

１．UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)まとめ・UL2は異なる事前学習から得られる能力と帰納的バイアスをモデルに付与可能・従来モデルは微調整タスクとプロンプトベースの1ショットタ...

2022.10.18

データセット

特許フレーズ類似性データセットの発表(2/2)

１．特許フレーズ類似性データセットの発表(2/2)まとめ・特許フレーズ類似性データセットの有用性はKaggle競技会の結果で確認できた・既存のNLPモデルと比較して大幅な改善を達成できる事が実証された・Kaggleの設問は人間の専門家...

2022.09.06

データセット

特許フレーズ類似性データセットの発表(1/2)

１．特許フレーズ類似性データセットの発表(1/2)まとめ・特許文書では文脈に依存する用語が口語的な意味と全く異なる事がある・これにより特許文書を従来の方法(キーワード検索など)で検索するのは困難・この課題に挑戦する次世代モデルのために...

2022.09.05

データセット

Teaching BERT to Wait:「え～」や「あ～」を識別して言語モデルのパフォーマンスを向上(1/2)

１．Teaching BERT to Wait:「え～」や「あ～」を識別して言語モデルのパフォーマンスを向上(1/2) ・インタビューなどの自然なスピーチは文章にすると流暢でない箇所があり読みにくい・機械学習を使って話し言葉中の非流暢な箇...

2022.07.05

学習手法

言語モデルに思考の連鎖を促し推論能力を向上(1/2)

１．言語モデルに思考の連鎖を促し推論能力を向上(1/2)まとめ・大規模言語モデルは数学の文章問題など段階的に思考していく事が必要なタスクで苦戦する・思考連鎖プロンプトはモデルに問題を中間ステップに分割して段階的に考える事を促す新手法・...

2022.05.26

基礎理論

nlp

最新のAIテクノロジーを使ってThe Lord of the Ringsの世界観の謎に迫る

Flan Collection：指示調整用のデータセットを更に充実(2/2)

機械学習が学習時に抜け道を見つけてズルをしてしまう事を防止(2/2)

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(2/2)

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)

人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(2/2)

人工知能はサイズを大きくすると今までできなかった事が突然できるようになる(1/2)

UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)

特許フレーズ類似性データセットの発表(2/2)

特許フレーズ類似性データセットの発表(1/2)

Teaching BERT to Wait:「え～」や「あ～」を識別して言語モデルのパフォーマンスを向上(1/2)

言語モデルに思考の連鎖を促し推論能力を向上(1/2)