large scale

基礎理論

ALX:大規模な行列計算をTPU上で実現(1/3)

1.ALX:大規模な行列計算をTPU上で実現(1/3)まとめ ・行列分解を使う手法は単純ではあるが性能が良いので推薦システムなどに昔から使われている ・ALSは行列分解のパラメータを学習するための基本的なアルゴリズムで規模拡大の効率が良い ...
学習手法

GSPMD:ニューラルネットワークの規模拡大を可能にする汎用的な並列化手法(2/2)

1.GSPMD:ニューラルネットワークの規模拡大を可能にする汎用的な並列化手法(2/2)まとめ ・GSPMDが使用するメモリはピークメモリ使用量に影響を与えない ・GSPMDはユーザーがモデルの異なる部分でモードを便利に切り替え可能 ・GS...
モデル

ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(3/3)

1.ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(3/3)まとめ ・ALIGNは風景の詳細な説明や固有地形や芸術作品などのきめ細かいレベル画像検索が可能 ・ALIGN embeddingsを使って演算するとパ...
インフラ

Kubernetesのノード数を7500に拡張(1/2)

1.Kubernetesのノード数を7500に拡張(1/2)まとめ ・GPT-3やCLIPやDALL·Eなどで有名なOpen AIの背後にあるインフラシステムの紹介 ・Kubernetesを7500ノードに規模拡大し大規模モデルから小規模研...
学習手法

SEED RLによる大規模強化学習(2/3)

1.SEED RLによる大規模強化学習(2/3)まとめ ・従来の強化学習アーキテクチャにはいくつかの欠点がありハードウェアの性能が生かせきれていない ・SEED RLアーキテクチャは欠点を解決するように設計されており規模を拡大して実行する事...