sparse model

モデル

Expert Choice:大規模なMoEモデルを偏らせずに学習させる工夫(1/2)

1.Expert Choice:大規模なMoEモデルを偏らせずに学習させる工夫(1/2)まとめ ・MoEは巨大モデル内のFFレイヤーを複数の同じFFレイヤーに置き換える事 ・MoEとスパース設計を組み合わせる事で効率的なデータ処理が可能にな...
モデル

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)

1.LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)まとめ ・多様な情報を処理可能なマルチモーダルモデルは将来が有望視されているが密モデルでは困難 ・疎モデルは規模拡大の容易性と情報同士を組み合わせて性能を向...
モデル

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)

1.LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)まとめ ・従来の密なモデルに比べると疎らなスパースモデルは規模拡大が用意で将来的に有望 ・疎なモデルは密なモデルが直面するマルチタスク時の性能悪化や破局的忘...
モデル

V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(2/2)

1.V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(2/2)まとめ ・Batch Priority Routingにより優先度の低いトークンを捨てる事を強制 ・従来手法ではバッファ容量不足時に性能が低下するがBPRは堅牢 ・ルーテ...
モデル

V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(1/2)

1.V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(1/2)まとめ ・大規模なモデルやデータセットを使用するためには大量の計算が必要になり困難 ・計算に必要なリソースを抑える有望な手法のひとつに条件付き計算がある ・これは常にネッ...
モデル

BigBird:疎なAttentionでより長い連続データに対応可能なTransformer(1/2)

1.BigBird:疎なAttentionでより長い連続データに対応可能なTransformer(1/2)まとめ ・Transformerは最新のNLP研究の中核技術で様々な連続する入力データに柔軟に適応できる ・しかし従来のTransfo...
アプリケーション

TensorFlow 3Dによる3Dシーンの理解(1/2)

1.TensorFlow 3Dによる3Dシーンの理解(1/2)まとめ ・3Dセンサーの普及が進んでおり三次元データを処理できるテクノロジーが求められている ・3Dデータに適用できるツールとリソースは限られており分野への参入は困難な場合がある...
モデル

RigL:ニューラルネットワークの冗長性を動的に最適化(3/3)

1.RigL:ニューラルネットワークの冗長性を動的に最適化(3/3)まとめ ・RigLのパフォーマンスはトレーニング時間を伸ばすと基本時間の百倍までは常に改善された ・ResNet-50では最先端のtop 1精度、MobileNet-v1で...
モデル

RigL:ニューラルネットワークの冗長性を動的に最適化(1/3)

1.RigL:ニューラルネットワークの冗長性を動的に最適化(1/3)まとめ ・最新のディープニューラルネットワークアーキテクチャは冗長性が高い場合が多い ・重要度の低い接続を刈り取る事で疎なニューラルネットワークに改良すると性能が上がる ・...