zero-shot learning

モデル

CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)

1.CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)まとめ・CoCaモデルは、最小限の改造で多くのタスクに対して直接微調整を行うことが可能・CoCaは画像分類やクロスモーダル検索などのゼロショットでも最先端モデル...
モデル

LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)

1.LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)まとめ・転移学習は精度は高いがタスク毎に手間がかかり対照学習はその逆で性能面に難があった・LiTは画像エンコーダの学習をロックする事でこの性能ギャップを半分埋...
モデル

MURAL:ヒンディー語で野菜を入れない麺が入った丼を検索されても対応画像を探せる人工知能(2/2)

1.MURAL:ヒンディー語で野菜を入れない素の麺が入った丼を検索されても対応画像を探せる人工知能(1/2)まとめ・翻訳ペアを用いて共同で学習させるとリソース不足言語のクロスモーダル検索能力を向上可・また、マルチモーダルモデルは言語同士の関...
モデル

MMCC:ラベル付けされていない動画から将来を予測する(2/2)

1.MMCC:ラベル付けされていない動画から将来を予測する(2/2)まとめ・MMCCはラベル無しで時間的なサイクルを見つけるようにモデルを学習させる・学習完了後MMCCはビデオの複雑な変化を捉えて意味のある状態変化を識別可能・時間的に離れた...
モデル

SimVLM:弱い教師を使ったシンプルな視覚言語モデル(2/2)

1.SimVLM:弱い教師を使ったシンプルな視覚言語モデル(2/2)まとめ・SimVLMは非常に単純な構成であるにもかかわらず最先端のモデルを凌駕・微調整せずともドイツ語で画像の説明文を作成するなどゼロショットが可能・SimVLMは教師あり...
モデル

FLAN:指示調整により初見タスク実行能力を向上した言語モデル(1/2)

1.FLAN:指示調整により初見タスク実行能力を向上した言語モデル(1/2)まとめ・モデルが意味のある文章を生成するためには現実世界の知識と物事を抽象化する能力が必要・モデルは規模拡大するとこれらの知識を自動的に取得するが条件は明確にわかっ...
モデル

ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(2/3)

1.ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(2/3)まとめ・ALIGNは微調整なしでテキストを使った画像検索や画像とテキストを同時に使った検索を実現・微調整を行うとALIGNはBiTやViTなどのほとん...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(3/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(3/3)まとめ・CLIPは一般的な物体認識には優れているが抽象的または体系的なタスクには苦戦・CLIPは、言葉遣いや言い回しに過敏で機能させるために試行錯誤も必要・分類対象の設...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(2/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(2/3)まとめ・ゼロショット機能実現は単純に事前トレーニングタスクを規模拡大するだけで十分だった・CLIPは視覚タスクの抱える課題であるデータが高コストである事などを軽減する・...