efficiency

モデル

GLaM:1.2兆のパラメータを持ち効率的に学習可能な大規模言語モデル(2/2)

1.GLaM:1.2兆のパラメータを持ち効率的に学習可能な大規模言語モデル(2/2)まとめ・GLaMはゼロショットとワンショットで密モデルと比べて競争力のある結果を達成した・多くのタスクで高いスコアを達成し、推論時も学習時も計算量が少なくて...
学習手法

GSPMD:ニューラルネットワークの規模拡大を可能にする汎用的な並列化手法(2/2)

1.GSPMD:ニューラルネットワークの規模拡大を可能にする汎用的な並列化手法(2/2)まとめ・GSPMDが使用するメモリはピークメモリ使用量に影響を与えない・GSPMDはユーザーがモデルの異なる部分でモードを便利に切り替え可能・GSPMD...
学習手法

TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(2/2)

1.TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(2/2)まとめ・Vision Transformerはトークンの数が多くなってしまう事がボトルネックとなっていた・本研究では多数の...
基礎理論

モデルのアンサンブルは貴方が思っているよりも凄い(1/2)

1.モデルのアンサンブルは貴方が思っているよりも凄い(1/2)まとめ・アンサンブルとカスケードは既存のモデルを集めてその出力を組み合わせて解とする手法・アンサンブルはよく知られているがディープモデルの中核要素とは見なされていない事が多い・ア...
学習手法

TAG:マルチタスク学習で一緒にトレーニングすべきタスクを知る(2/2)

1.TAG:マルチタスク学習で一緒にトレーニングすべきタスクを知る(2/2)まとめ・TAGは1つのタスクに関してのみモデルのパラメータを更新してその影響を調べる・ネットワーク内の各タスクが他のタスクとどのように相互作用するかについての情報を...
基礎理論

道路網を効率的に分割して最短経路探索を高速化(1/2)

1.道路網を効率的に分割して最短経路探索を高速化(1/2)まとめ・古典的なアルゴリズムは現在も大規模問題の解決に役立つことが良くある・ランダムウォークを使用して北米大陸の道路網全体を高品質に分割できた・同様の出力品質を持つ他の分割アルゴリズ...
モデル

超並列グラフ計算:理論から実践へ(2/2)

1.超並列グラフ計算:理論から実践へ(2/2)まとめ・AMPCモデルを使用して、実用的で効率的な実装に触発された理論的フレームワークを構築・優れた実証的パフォーマンスと障害耐性を維持する新しい理論的アルゴリズム・グラフのサイズに関係なく、最...
基礎理論

転移学習とは何か?

1.転移学習とは何か?・ディープラーニングは大量のデータと計算機能力を必要とするためハードルが高い・転移学習は既に学習済みのモデルをベースにして学習をさせるので効率が向上する・転移学習によりディープラーニングトレーニング時のデータや計算量が...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(2/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(2/3)まとめ・ゼロショット機能実現は単純に事前トレーニングタスクを規模拡大するだけで十分だった・CLIPは視覚タスクの抱える課題であるデータが高コストである事などを軽減する・...
AI関連その他

AIのアルゴリズムの効率性は16か月毎に2倍に上昇(2/2)

1.AIのアルゴリズムの効率性は16か月毎に2倍に上昇(2/2)まとめ・少量のコンピューティングで達成された顕著な進歩の測定に力を注ぐことが重要・今後も効率的な最新技術を引き続き追跡し、視覚と翻訳タスク以外も追加して行く予定・未掲載のSOT...
AI関連その他

AIのアルゴリズムの効率性は16か月毎に2倍に上昇(1/2)

1.AIのアルゴリズムの効率性は16か月毎に2倍に上昇(1/2)まとめ・アルゴリズムの改良でImageNet分類タスクに必要な計算量が16か月ごとに2分の1に減少・7年前のAlexNetと同等のパフォーマンスを実現するために必要な計算能力は...
モデル

RigL:ニューラルネットワークの冗長性を動的に最適化(1/3)

1.RigL:ニューラルネットワークの冗長性を動的に最適化(1/3)まとめ・最新のディープニューラルネットワークアーキテクチャは冗長性が高い場合が多い・重要度の低い接続を刈り取る事で疎なニューラルネットワークに改良すると性能が上がる・しかし...