モデル | ページ 5

MGDT：41種のゲームを人間同等にプレイ可能なTransformer(2/2)

１．MGDT：41種のゲームを人間同等にプレイ可能なTransformer(2/2)まとめ・MGDTは様々な経験を学習した方が専門家レベルのデモのみを学習するより優れている・他の学習システムと比較してモデルサイズの増加に伴う性能向上がよ...

2022.07.28

モデル

１．MGDT：41種のゲームを人間同等にプレイ可能なTransformer(1/2)まとめ・現在の強化学習は様々な個別タスクの意思決定に秀でるが汎用性に関する研究は少ない・自然言語、視覚、生成モデルの分野ではTransformerが活躍...

2022.07.27

モデル

１．CMT-DeepLab：パノプティックセグメンテーションをクラスタ問題として考える(2/2)まとめ・マスクtransformerをクラスタリングの観点から再定義すると性能と解釈可能性が大幅に向上・kMaX-DeepLabは修正が簡単...

2022.07.19

モデル学習手法

１．CMT-DeepLab：パノプティックセグメンテーションをクラスタ問題として考える(1/2)まとめ・パノプティックセグメンテーションは車や人等の実体と雲や道路等の意味的存在を同時に扱う・従来はインスタンスセグメンテーションとセマンテ...

2022.07.18

モデル学習手法

１．Minerva:大学受験レベルの数学を解答可能な言語モデル(2/2)まとめ・Minervaは推論ミスや計算ミスなどまだ相応な間違いをする事がわかっている・また最終的に正しい答えに到達しても途中の推論に誤りがある場合もある・モデルが...

2022.07.04

モデル

１．Minerva:大学受験レベルの数学を解答可能な言語モデル(1/2)まとめ・定量的推論は、言語モデルがまだ人間レベルの性能にはるかに及ばない分野の一つ・数学問題を解くには数学的表記や数式や定数の記憶、段階的な推論などが必要なため・...

2022.07.03

モデル

１．DALL·E Flow：複数のモデルを組み合わせて入力文に基づいたHD画像を作成(2/2)まとめ・DALL-E Flowのサーバーは、ピーク時に21GBのVRAMを持つ1つのGPUを必要とする・12GBのGPUではDALL-E Fl...

2022.06.14

アプリケーションモデル

１．LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)まとめ・多様な情報を処理可能なマルチモーダルモデルは将来が有望視されているが密モデルでは困難・疎モデルは規模拡大の容易性と情報同士を組み合わせて性能を向...

2022.06.12

モデル

１．LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)まとめ・従来の密なモデルに比べると疎らなスパースモデルは規模拡大が用意で将来的に有望・疎なモデルは密なモデルが直面するマルチタスク時の性能悪化や破局的忘...

2022.06.11

モデル

１．MV-GPT：動画に説明文を自動で付与するための新手法(2/2)まとめ・MV-GPTはマルチモーダル事前キャプションで従来モデルを大きく上回る事を実証した・MV-GPTはVideoQA、テキスト-ビデオ検索、行動分類など、ビデオ理解...

2022.06.10

モデル学習手法

１．MV-GPT：動画に説明文を自動で付与するための新手法(1/2)まとめ・マルチモーダルビデオキャプションは動画に説明文(キャプション)を生成するタスク・根拠に基づいてキャプションを生成する必要があり動画理解タスクより困難なタスク・...

2022.06.09

モデル学習手法

１．CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)まとめ・CoCaモデルは、最小限の改造で多くのタスクに対して直接微調整を行うことが可能・CoCaは画像分類やクロスモーダル検索などのゼロショットでも最先端モ...

2022.06.06

モデル学習手法