モデル

モデル

Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)

1.Flan-U-PaLM:わずかな追加計算で大規模言語モデルの性能を向上(1/2)まとめ ・巨大言語モデルを学習させるためには膨大な計算資源を必要でハードルが高い ・膨大な計算資源を使わずに既存モデルを大幅に改善する2つの手法を提案 ・U...
モデル

Expert Choice:大規模なMoEモデルを偏らせずに学習させる工夫(2/2)

1.Expert Choice:大規模なMoEモデルを偏らせずに学習させる工夫(2/2)まとめ ・密なFFNにMoEとゲーティング機能を適用するのはFFNが重い処理であるため ・エキスパートが受け入れるトークン数に上限を設けるとスコアは1ポ...
モデル

Expert Choice:大規模なMoEモデルを偏らせずに学習させる工夫(1/2)

1.Expert Choice:大規模なMoEモデルを偏らせずに学習させる工夫(1/2)まとめ ・MoEは巨大モデル内のFFレイヤーを複数の同じFFレイヤーに置き換える事 ・MoEとスパース設計を組み合わせる事で効率的なデータ処理が可能にな...
モデル

ReAct:わからなかったらググって、ググった情報を元にもう一度ググって必要な情報を探せる人工知能(2/2)

1.ReAct:わからなかったらググって、ググった情報を元にもう一度ググって必要な情報を探せる人工知能(2/2)まとめ ・ReActの軌跡を用いてより小さな言語モデルの微調整を行うことも検討中 ・ReActが推論を誤った際、人間が道筋を編集...
モデル

ReAct:わからなかったらググって、ググった情報を元にもう一度ググって必要な情報を探せる人工知能(1/2)

1.ReAct:わからなかったらググって、ググった情報を元にもう一度ググって必要な情報を探せる人工知能(1/2)まとめ ・言語モデルは様々なタスクに応用されているが学習済の知識しか利用できない ・また、長期的な視点にたって行動するための一時...
モデル

AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)

1.AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)まとめ ・AudioLMの学習データは生のオーディオのみで文書化されたデータは未使用 ・人間の評価者は人間の音声とAudioLMの生成音声の見分けがつ...
モデル

AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(1/2)

1.AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(1/2)まとめ ・オーディオ言語モデルは文章ではなくオーディオを使って学習した言語モデル ・GPT-3のような言語モデルが出来る事がオーディオを使ってできるモ...
モデル

LFNRとGPNR:反射するCDを含む場面の視線合成が可能な新手法(2/2)

1.LFNRとGPNR:反射するCDを含む場面の視線合成が可能な新手法(2/2)まとめ ・LFNRの制限の1つは狭い範囲から情報を取得しているため汎化できない事 ・GPNRでは同じ深度のポイント間で情報を交換するtransformerを追加...
モデル

LFNRとGPNR:反射するCDを含む場面の視線合成が可能な新手法(1/2)

1.LFNRとGPNR:反射するCDを含む場面の視線合成が可能な新手法(1/2)まとめ ・ある風景の複数の写真から新しい視点を合成する視点合成タスクは長年の課題 ・LFNRではCDの光彩のような視点に依存する効果を再現する課題に取り組んだ ...
モデル

FindIt:テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)

1.FindIt:テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(2/2)まとめ ・3つのタスク全てを同じ入力を取るように適応させ学習の効率化を行った ・全てのタスクに対して標準的な物体検出損失を使ったが驚くほ...
モデル

FindIt:テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(1/2)

1.FindIt:テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(1/2)まとめ ・物体レベルの識別タスクは3種類あるが別々に研究される事が多い ・3種のタスクに柔軟に対応できるFindItと呼ばれる統一視覚モ...
モデル

PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)

1.PaLI:言語-画像モデルを100以上の言語に規模拡大(2/2)まとめ ・全タスクを単一の汎用API経由で実施する事でタスク間の知識共有を行った ・PaLIは難易度の高い汎用的な視覚-言語ベンチマークで最先端の結果を達成 ・視覚と言語の...