image-text

CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)

１．CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)まとめ・CoCaモデルは、最小限の改造で多くのタスクに対して直接微調整を行うことが可能・CoCaは画像分類やクロスモーダル検索などのゼロショットでも最先端モデル...

2022.06.06

モデル学習手法

１．CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)まとめ・機械学習モデルは幅広いタスクに対応可能な大規模基盤モデルを元に設計する事が多い・自然言語処理では、BERT、T5、GPT-3などの事前学習済大規模モデル...

2022.06.05

モデル学習手法

１．MURAL:ヒンディー語で野菜を入れない素の麺が入った丼を検索されても対応画像を探せる人工知能(1/2)まとめ・概念の多くは、ある言語から別の言語への直接的に一対一に翻訳する事ができない・連想するものが異なるためだが概念のイメージを見せ...

2021.12.18

モデル

１．WIT：ウィキペディアベースの画像-テキストデータセット(1/2)まとめ・テキストにも視覚にも対応できるマルチモーダルなモデルは豊富なデータを必要とする・既存のデータセットは質と量の両立が出来ておらず英語以外の言語への対応も不足・WIT...

2021.09.28

データセット

１．KYD：データセット探索用の新ツール(2/2)まとめ・画像説明文内の「男性のまなざし」について調査し従来の研究結果を裏付ける事ができた・高齢者は現実世界の集団内での存在に比べてデータセット内で過小評価されている事も判明・KYDを使用して...

2021.08.20

データセット公平性

１．ALIGN：ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(3/3)まとめ・ALIGNは風景の詳細な説明や固有地形や芸術作品などのきめ細かいレベル画像検索が可能・ALIGN embeddingsを使って演算するとパンダ...

2021.05.25

モデル

１．ALIGN：ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(2/3)まとめ・ALIGNは微調整なしでテキストを使った画像検索や画像とテキストを同時に使った検索を実現・微調整を行うとALIGNはBiTやViTなどのほとん...

2021.05.24

モデル

１．ALIGN：ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(1/3)まとめ・視覚言語間マッチングモデルは文章や画像を入力して関連性の高い画像を見つけるのに役立つ・最先端の視覚および視覚対言語モデルは厳選されたトレーニン...

2021.05.23

モデル

１．Crisscrossed Captions：画像とテキストの意味的類似性の探求(3/3)まとめ・文対文タスクと画像対文タスクでトレーニングされたマルチタスクモデルが最も優秀だった・文対文のトレーニングを追加すると画像対文、文対画像でパフ...

2021.05.19

データセット

１．Crisscrossed Captions：画像とテキストの意味的類似性の探求(2/3)まとめ・類似性が高いと予想される新しいペアを抽出し、そのペアを人が評価する事にした・キャプションの類似性が高い画像同士は類似性が高い可能性があるので...

2021.05.18

データセット

１．Crisscrossed Captions：画像とテキストの意味的類似性の探求(1/3)まとめ・自動画像キャプションはアルゴリズムで画像の説明を作成するタスクで目覚ましい進歩を遂げた・これにより視覚情報と言語情報を紐づける研究に利用可能...

2021.05.17

データセット

１．DALL·E：文章から画像を作成(3/3)まとめ・DALL·EはGPT-3同様、説明と手がかりを与えるだけで追加学習なしで様々なタスクを実行可・視覚IQテストでは簡単な類推問題は解く事ができたが複雑な問題は解く事ができなかった・地理的知...

2021.01.08

モデル