モデル

モデル

CMT-DeepLa:パノプティックセグメンテーションをクラスタ問題として考える(1/2)

1.CMT-DeepLab:パノプティックセグメンテーションをクラスタ問題として考える(1/2)まとめ ・パノプティックセグメンテーションは車や人等の実体と雲や道路等の意味的存在を同時に扱う ・従来はインスタンスセグメンテーションとセマンテ...
モデル

Minerva:大学受験レベルの数学を解答可能な言語モデル(2/2)

1.Minerva:大学受験レベルの数学を解答可能な言語モデル(2/2)まとめ ・Minervaは推論ミスや計算ミスなどまだ相応な間違いをする事がわかっている ・また最終的に正しい答えに到達しても途中の推論に誤りがある場合もある ・モデルが...
モデル

Minerva:大学受験レベルの数学を解答可能な言語モデル(1/2)

1.Minerva:大学受験レベルの数学を解答可能な言語モデル(1/2)まとめ ・定量的推論は、言語モデルがまだ人間レベルの性能にはるかに及ばない分野の一つ ・数学問題を解くには数学的表記や数式や定数の記憶、段階的な推論などが必要なため ・...
アプリケーション

DALL·E Flow:複数のモデルを組み合わせて入力文に基づいたHD画像を作成(2/2)

1.DALL·E Flow:複数のモデルを組み合わせて入力文に基づいたHD画像を作成(2/2)まとめ ・DALL-E Flowのサーバーは、ピーク時に21GBのVRAMを持つ1つのGPUを必要とする ・12GBのGPUではDALL-E Fl...
モデル

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)

1.LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)まとめ ・多様な情報を処理可能なマルチモーダルモデルは将来が有望視されているが密モデルでは困難 ・疎モデルは規模拡大の容易性と情報同士を組み合わせて性能を向...
モデル

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)

1.LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)まとめ ・従来の密なモデルに比べると疎らなスパースモデルは規模拡大が用意で将来的に有望 ・疎なモデルは密なモデルが直面するマルチタスク時の性能悪化や破局的忘...
モデル

MV-GPT:動画に説明文を自動で付与するための新手法(2/2)

1.MV-GPT:動画に説明文を自動で付与するための新手法(2/2)まとめ ・MV-GPTはマルチモーダル事前キャプションで従来モデルを大きく上回る事を実証した ・MV-GPTはVideoQA、テキスト-ビデオ検索、行動分類など、ビデオ理解...
モデル

MV-GPT:動画に説明文を自動で付与するための新手法(1/2)

1.MV-GPT:動画に説明文を自動で付与するための新手法(1/2)まとめ ・マルチモーダルビデオキャプションは動画に説明文(キャプション)を生成するタスク ・根拠に基づいてキャプションを生成する必要があり動画理解タスクより困難なタスク ・...
モデル

CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)

1.CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)まとめ ・CoCaモデルは、最小限の改造で多くのタスクに対して直接微調整を行うことが可能 ・CoCaは画像分類やクロスモーダル検索などのゼロショットでも最先端モ...
モデル

CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)

1.CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)まとめ ・機械学習モデルは幅広いタスクに対応可能な大規模基盤モデルを元に設計する事が多い ・自然言語処理では、BERT、T5、GPT-3などの事前学習済大規模モ...
モデル

ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(2/2)

1.ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(2/2)まとめ ・VIMは犬や猫など与えられた特定のクラスの画像を合成するクラス条件付き生成が可能 ・画像理解タスクでも分類精度を60.3%(iGPT-L)から...
モデル

ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(1/2)

1.ViT-VQGAN:画像量子化技術を再考して画像生成と画像理解の性能を向上(1/2)まとめ ・事前学習は入力信号が文章である事を仮定しないので量子化すれば画像も扱う事が可能 ・画像を離散トークンにエンコードし、それをCNNまたはTran...