moe

Expert Choice：大規模なMoEモデルを偏らせずに学習させる工夫(2/2)

１．Expert Choice：大規模なMoEモデルを偏らせずに学習させる工夫(2/2)まとめ・密なFFNにMoEとゲーティング機能を適用するのはFFNが重い処理であるため・エキスパートが受け入れるトークン数に上限を設けるとスコアは1ポ...

2022.11.20

モデル

１．Expert Choice：大規模なMoEモデルを偏らせずに学習させる工夫(1/2)まとめ・MoEは巨大モデル内のFFレイヤーを複数の同じFFレイヤーに置き換える事・MoEとスパース設計を組み合わせる事で効率的なデータ処理が可能にな...

2022.11.19

モデル

１．LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)まとめ・従来の密なモデルに比べると疎らなスパースモデルは規模拡大が用意で将来的に有望・疎なモデルは密なモデルが直面するマルチタスク時の性能悪化や破局的忘...

2022.06.11

モデル

１．TaskMoE：効率的に推論を行うためにタスク別のルーティングを学習(1/2)まとめ・MoEは効果的だが多くのトークンを複数のexpertsに送ると多くの計算コストがかかる・TokenMoEはTaskMoEと異なりタスク毎にサブネッ...

2022.01.23

モデル学習手法