transformer

モデル

CMT-DeepLa:パノプティックセグメンテーションをクラスタ問題として考える(2/2)

1.CMT-DeepLab:パノプティックセグメンテーションをクラスタ問題として考える(2/2)まとめ・マスクtransformerをクラスタリングの観点から再定義すると性能と解釈可能性が大幅に向上・kMaX-DeepLabは修正が簡単でテ...
モデル

ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(2/2)

1.ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(2/2)まとめ・VIMは犬や猫など与えられた特定のクラスの画像を合成するクラス条件付き生成が可能・画像理解タスクでも分類精度を60.3%(iGPT-L)から73...
モデル

ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(1/2)

1.ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(1/2)まとめ・事前学習は入力信号が文章である事を仮定しないので量子化すれば画像も扱う事が可能・画像を離散トークンにエンコードし、それをCNNまたはTransf...
アプリケーション

Googleアシスタントが文脈を意識できる理由(2/2)

1.Googleアシスタントが文脈を意識できる理由(2/2)まとめ・言い換えシステムは3種の異なるタイプの生成器を用いて候補を生成している・言い換え候補からいくつかの信号を抽出しMLモデルで最も有望な候補を選択・本手法は、問い合わせ文を処理...
学習手法

Alpa:わずか1行でJAXニューラルネットワークを並列化(2/2)

1.Alpa:わずか1行でJAXニューラルネットワークを並列化(2/2)まとめ・Alpaは標準的な専門家が設計したTransformerモデルでは最高のフレームワークに匹敵する・mixture-of-expert層を持つTransforme...
モデル

PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(1/3)

1.PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(1/3)まとめ・昨年、Googlは領域やタスクを横断して汎化できる高効率な単一モデルPathways構想を発表・PaLMはPathwaysシステムで学習した5,400億の...
アプリケーション

Googleドキュメントで要約を自動生成(2/2)

1.Googleドキュメントで要約を自動生成(2/2)まとめ・知識蒸留でPegasusをTransformerとRNNのハイブリッドアーキテクチャに蒸留・その結果オリジナルと同等の品質を保ちながら、待ち時間と必要メモリを大幅に改善・課題はあ...
アプリケーション

Googleドキュメントで要約を自動生成(1/2)

1.Googleドキュメントで要約を自動生成(1/2)まとめ・Googleドキュメントに要約文を作成して自動的に生成/提案する機能が実装された・全ユーザーが要約を追加可能だが自動生成はGoogle Workspaceのビジネスユーザーのみ・...
モデル

MBT:動画における新しいモダリティ融合モデル(1/3)

1.MBT:動画における新しいモダリティ融合モデル(1/3)まとめ・人は複数の感覚からの入力を通して世界と関わり情報を組み合わせる事が可能・同様に複数の入力を取扱可能なモデルをマルチモーダルな機械学習モデルという・MBTと呼ぶ動画におけるマ...
モデル

CoVeR:画像と動画で協調学習を行い行動認識を改善(1/2)

1.CoVeR:画像と動画で協調学習を行い行動認識を改善(1/2)まとめ・行動認識は応用範囲が広いので研究コミュニティの注目を集める分野となっている・行動認識モデルを別の異種データセットで調整するとパフォーマンスが低下する・画像と映像を同時...
モデル

TaskMoE:効率的に推論を行うためにタスク別のルーティングを学習(2/2)

1.TaskMoE:効率的に推論を行うためにタスク別のルーティングを学習(2/2)まとめ・蒸留でサイズを削減する際は教師モデルから生徒モデルを訓練する追加計算が必要・更にTokenMoEを蒸留しても向上したパフォーマンスを全て維持する事はで...
その他の調査

Google Research:2022年以降にAIはどのように進化していくか?(1/6)

1.Google Research:2022年以降にAIはどのように進化していくか?(1/6)まとめ・ここ数年でモデルのパラメータ数は数十億規模から数千億または数兆にスケールアップした・様々なタスクに対して最適化された部分のみを活性化する効...