language model

モデル

PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(2/2)

1.PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(2/2)まとめ ・ポリシーの学習には10台のロボットで11ヶ月間収集したデモデータ+αを使用 ・更にシミュレーションでオンラインデータを収...
モデル

PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(1/2)

1.PaLM-SayCan:飲み物をこぼしてしまったからちょっと助けて!とロボットに頼めるようになる(1/2)まとめ ・ロボットは明確なタスク定義を用いて学習しているので曖昧な指示が苦手 ・言語モデルは曖昧な指示も理解できるが現実世界を知ら...
学習手法

Teaching BERT to Wait:「え~」や「あ~」を識別して言語モデルのパフォーマンスを向上(2/2)

1.Teaching BERT to Wait:「え~」や「あ~」を識別して言語モデルのパフォーマンスを向上(2/2) ・スマホの音声の自動書き起こしアプリなどでも非流暢性の除去は読みやすさ向上に貢献 ・リアルタイムに発生するストリーミング...
モデル

Minerva:大学受験レベルの数学を解答可能な言語モデル(2/2)

1.Minerva:大学受験レベルの数学を解答可能な言語モデル(2/2)まとめ ・Minervaは推論ミスや計算ミスなどまだ相応な間違いをする事がわかっている ・また最終的に正しい答えに到達しても途中の推論に誤りがある場合もある ・モデルが...
モデル

Minerva:大学受験レベルの数学を解答可能な言語モデル(1/2)

1.Minerva:大学受験レベルの数学を解答可能な言語モデル(1/2)まとめ ・定量的推論は、言語モデルがまだ人間レベルの性能にはるかに及ばない分野の一つ ・数学問題を解くには数学的表記や数式や定数の記憶、段階的な推論などが必要なため ・...
モデル

PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(2/3)

1.PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(2/3)まとめ ・PaLMの性能はモデル規模の関数として表現でき、性能が更に向上可能である事が示唆される ・PaLMは適切な文脈で概念の組み合わせを理解するので絵文字から...
学習手法

Soft Prompt:プロンプトを人力でなく学習させる新手法(1/2)

1.Soft Prompt:プロンプトを人力でなく学習させる新手法(1/2)まとめ ・モデルの規模が大きくなるとタスク毎に複数のモデルを微調整して保存することは難しくなる ・GPT-3は1つの巨大モデルでも入力を工夫すれば多様なタスクを実行...
モデル

GLaM:1.2兆のパラメータを持ち効率的に学習可能な大規模言語モデル(2/2)

1.GLaM:1.2兆のパラメータを持ち効率的に学習可能な大規模言語モデル(2/2)まとめ ・GLaMはゼロショットとワンショットで密モデルと比べて競争力のある結果を達成した ・多くのタスクで高いスコアを達成し、推論時も学習時も計算量が少な...
基礎理論

BERTは文法を理解しているのか?頻度を見ているだけなのか?(2/2)

1.BERTは文法を理解しているのか?頻度を見ているだけなのか?(2/2)まとめ ・BERTは主語と動詞の一致ルールで単純な経験則モデルより良い性能である ・主語と動詞が一致すべき事と高頻度の単語がより可能性が高い事を知っている ・一致が従...
基礎理論

BERTは文法を理解しているのか?頻度を見ているだけなのか?(1/2)

1.BERTは文法を理解しているのか?頻度を見ているだけなのか?(1/2)まとめ ・言語モデルは機能する理由が不透明な事が多く更なる改善の妨げになっている ・英語の主語と動詞の一致規則を正しく適用するBERTモデルの能力を調査した ・初見の...
アプリケーション

データセンター内のBERTに匹敵する性能を持つPixel 6搭載の言語モデル(3/3)

1.データセンター内のBERTに匹敵する性能を持つPixel 6搭載の言語モデル(3/3)まとめ ・前世代の最先端モデルであるMobileDet-EdgeTPUをエネルギー効率で30%上回る ・顔検出性能の向上に加えホワイトバランスと露出の...
アプリケーション

データセンター内のBERTに匹敵する性能を持つPixel 6搭載の言語モデル(1/3)

1.データセンター内のBERTに匹敵する性能を持つPixel 6搭載の言語モデル(1/3)まとめ ・Google TensorはGoogleのAI原則に沿ってMLモデルを実行するために最適化されている ・ニューラルアーキテクチャ探索を使用し...