multimodal

モデル

PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(2/2)

1.PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(2/2)まとめ ・PaLM-Eはロボット操作タスクと視覚・言語タスクを共通の特徴表現で括ることで、汎化モデルを学習する新しいパラダイムを提...
モデル

PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(1/2)

1.PaLM-E:ロボットは邪魔をされても引き出しからポテチを取り出すくらいはできるようになっている(1/2)まとめ ・ロボットモデルの規模拡大は一定の成功を収めているが、テキストや画像に匹敵する規模のデータセットがないので遅れをとっている...
アプリケーション

Look and Talk:視線を検知して呼び出しを認識するアシスタント(1/2)

1.Look and Talk:視線を検知して呼び出しを認識するアシスタント(1/2)まとめ ・現在のGoogle Assistantは「OK Google」と呼びかける事で起動する仕組みに依存している ・ホームデバイスとの自然で直感的な対...
モデル

MBT:動画における新しいモダリティ融合モデル(2/3)

1.MBT:動画における新しいモダリティ融合モデル(2/3)まとめ ・マルチモーダルモデルで複雑性が増す問題は、注意の流れを削減して緩和する事が可能 ・本研究では融合レイヤーの位置と注意のボトルネックを用いて注意の流れを制限した ・中期融合...
モデル

MURAL:ヒンディー語で野菜を入れない麺が入った丼を検索されても対応画像を探せる人工知能(2/2)

1.MURAL:ヒンディー語で野菜を入れない素の麺が入った丼を検索されても対応画像を探せる人工知能(1/2)まとめ ・翻訳ペアを用いて共同で学習させるとリソース不足言語のクロスモーダル検索能力を向上可 ・また、マルチモーダルモデルは言語同士...
モデル

SimVLM:弱い教師を使ったシンプルな視覚言語モデル(2/2)

1.SimVLM:弱い教師を使ったシンプルな視覚言語モデル(2/2)まとめ ・SimVLMは非常に単純な構成であるにもかかわらず最先端のモデルを凌駕 ・微調整せずともドイツ語で画像の説明文を作成するなどゼロショットが可能 ・SimVLMは教...
データセット

WIT:ウィキペディアベースの画像-テキストデータセット(1/2)

1.WIT:ウィキペディアベースの画像-テキストデータセット(1/2)まとめ ・テキストにも視覚にも対応できるマルチモーダルなモデルは豊富なデータを必要とする ・既存のデータセットは質と量の両立が出来ておらず英語以外の言語への対応も不足 ・...
モデル

ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(3/3)

1.ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(3/3)まとめ ・ALIGNは風景の詳細な説明や固有地形や芸術作品などのきめ細かいレベル画像検索が可能 ・ALIGN embeddingsを使って演算するとパ...