vision transformer

モデル

PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(1/2)

1.PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(1/2)まとめ ・ロボットモデルの規模拡大は一定の成功を収めているが、テキストや画像に匹敵する規模のデータセットがないので遅れをとっている...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(3/5)

1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(3/5)まとめ ・次世代のAIは特定のデータ形式しか扱えない従来のAIと異なり複数のデータ形式を扱えう事が可能 ・マルチモーダルモデルと呼ばれるこれらのA...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(2/5)

1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(2/5)まとめ ・MaxViTはオリジナルのVision Transformerの計算量削減に成功し、より効率的に規模を拡大可能にした ・Pix2Seqは...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(2/2)まとめ ・MAXIMは低レベルの画像間予測タスクのために調整されたUNetに似たアーキテクチャ ・画像サイズが大きくなっても計算量は線形に増えるだけなので高...
モデル

MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)

1.MaxViTとMAXIM:ViTの効率を更に高めた視覚タスク用新モデル(1/2)まとめ ・視覚領域では畳み込みやAttentionを取り入れた手法が主流だがMLPという手法もある ・ViTとMLPは計算量が画像サイズに対して二次関数的に...
モデル

Nested Hierarchical Transformer:ViTに数行のコードを加えるだけでデータ効率を大幅に向上(1/3)

1.Nested Hierarchical Transformer:ViTに数行のコードを加えるだけでデータ効率を大幅に向上(1/3)まとめ ・Vision Transformer(ViT)とその亜種は視覚理解タスクで最近大きく注目されてい...
学習手法

TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(2/2)

1.TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(2/2)まとめ ・Vision Transformerはトークンの数が多くなってしまう事がボトルネックとなっていた ・本研究では多...
学習手法

TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(1/2)

1.TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(1/2)まとめ ・Vision Transformerは画像をトークン単位で扱うので画像の大域的な特徴をつかむ事ができる ・課題は...