モデル TaskMoE:効率的に推論を行うためにタスク別のルーティングを学習(1/2) 1.TaskMoE:効率的に推論を行うためにタスク別のルーティングを学習(1/2)まとめ ・MoEは効果的だが多くのトークンを複数のexpertsに送ると多くの計算コストがかかる ・TokenMoEはTaskMoEと異なりタスク毎にサブネッ... 2022.01.23 モデル学習手法
モデル V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(2/2) 1.V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(2/2)まとめ ・Batch Priority Routingにより優先度の低いトークンを捨てる事を強制 ・従来手法ではバッファ容量不足時に性能が低下するがBPRは堅牢 ・ルーテ... 2022.01.22 モデル学習手法
モデル V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(1/2) 1.V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(1/2)まとめ ・大規模なモデルやデータセットを使用するためには大量の計算が必要になり困難 ・計算に必要なリソースを抑える有望な手法のひとつに条件付き計算がある ・これは常にネッ... 2022.01.21 モデル学習手法
プライバシー Federated Reconstruction:部分的に端末内で連合学習を行い連合学習の規模を拡大(2/2) 1.Federated Reconstruction:部分的に端末内で連合学習を行い連合学習の規模を拡大(2/2)まとめ ・部分的端末内連合学習のための手法であるFederated Reconstructionを発表 ・Federated ... 2022.01.14 プライバシー学習手法
プライバシー Federated Reconstruction:部分的に端末内で連合学習を行い連合学習の規模を拡大(1/2) 1.Federated Reconstruction:部分的に端末内で連合学習を行い連合学習の規模を拡大(1/2)まとめ ・連合学習はユーザーがクラウドに生データを送ることなくモデルを学習することが可能 ・各ユーザーで傾向が異なっていても全... 2022.01.13 プライバシー学習手法
データセット データセット蒸留による機械学習モデルの効率的なトレーニング(2/2) 1.データセット蒸留による機械学習モデルの効率的なトレーニング(2/2)まとめ ・蒸留したデータセットは、画像分類データセットにおいて最先端の性能を達成 ・分散システムを利用してデータセットは数百のGPUを利用して作成した ・蒸留したデータ... 2022.01.12 データセット学習手法
データセット データセット蒸留による機械学習モデルの効率的なトレーニング(1/2) 1.データセット蒸留による機械学習モデルの効率的なトレーニング(1/2)まとめ ・蒸留はトレーニングを効率的に行うためのアイディアでモデルとデータセットが対象となる ・蒸留したデータセットでモデルを学習させるとメモリと計算量を減らすことがで... 2022.01.11 データセット学習手法
学習手法 TFT:解釈可能な時系列予測用ディープラーニング(2/2) 1.TFT:解釈可能な時系列予測用ディープラーニング(2/2)まとめ ・静的変数の最大の重みは店舗と商品、将来変数の最大の重みは広告期間と国民の祝日 ・TFTはハードコーディングなしに持続的な時間的パターンを学習する事が出来ていた ・TFT... 2022.01.09 学習手法
学習手法 TFT:解釈可能な時系列予測用ディープラーニング(1/2) 1.TFT:解釈可能な時系列予測用ディープラーニング(1/2)まとめ ・複数の時間間隔で関心のある変数の将来を予測することは時系列機械学習における重要な課題 ・従来の時系列モデルはモデルがどのようにして予測に至ったかを説明することは困難 ・... 2022.01.08 学習手法
学習手法 Fast WordPiece Tokenization:WordPieceによるトークン化を高速に実行(2/2) 1.Fast WordPiece Tokenization:WordPieceによるトークン化を高速に実行(2/2)まとめ ・LinMaxMatchアルゴリズムはループ処理を行わないので効率的 ・事前トークン化とWordPiece化を直接実... 2022.01.07 学習手法
学習手法 Fast WordPiece Tokenization:WordPieceによるトークン化を高速に実行(1/2) 1.Fast WordPiece Tokenization:WordPieceによるトークン化を高速に実行(1/2)まとめ ・自然言語処理アプリケーションではトークン化が基本的な前処理ステップとなる ・WordPieceが良く使われているト... 2022.01.06 学習手法
学習手法 GSPMD:ニューラルネットワークの規模拡大を可能にする汎用的な並列化手法(2/2) 1.GSPMD:ニューラルネットワークの規模拡大を可能にする汎用的な並列化手法(2/2)まとめ ・GSPMDが使用するメモリはピークメモリ使用量に影響を与えない ・GSPMDはユーザーがモデルの異なる部分でモードを便利に切り替え可能 ・GS... 2021.12.30 学習手法