モデル TaskMoE:効率的に推論を行うためにタスク別のルーティングを学習(1/2)
1.TaskMoE:効率的に推論を行うためにタスク別のルーティングを学習(1/2)まとめ ・MoEは効果的だが多くのトークンを複数のexpertsに送ると多くの計算コストがかかる ・TokenMoEはTaskMoEと異なりタスク毎にサブネッ...
モデル
モデル
モデル
プライバシー
プライバシー
データセット
データセット
学習手法
学習手法
学習手法
学習手法
学習手法