dahara1 | ページ 30

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)

１．LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)まとめ・多様な情報を処理可能なマルチモーダルモデルは将来が有望視されているが密モデルでは困難・疎モデルは規模拡大の容易性と情報同士を組み合わせて性能を向...

2022.06.12

モデル

１．LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)まとめ・従来の密なモデルに比べると疎らなスパースモデルは規模拡大が用意で将来的に有望・疎なモデルは密なモデルが直面するマルチタスク時の性能悪化や破局的忘...

2022.06.11

モデル

１．MV-GPT：動画に説明文を自動で付与するための新手法(2/2)まとめ・MV-GPTはマルチモーダル事前キャプションで従来モデルを大きく上回る事を実証した・MV-GPTはVideoQA、テキスト-ビデオ検索、行動分類など、ビデオ理解...

2022.06.10

モデル学習手法

１．MV-GPT：動画に説明文を自動で付与するための新手法(1/2)まとめ・マルチモーダルビデオキャプションは動画に説明文(キャプション)を生成するタスク・根拠に基づいてキャプションを生成する必要があり動画理解タスクより困難なタスク・...

2022.06.09

モデル学習手法

１．LabelDP：秘匿対象をラベルに限定する事で差分プライバシーの精度を向上(2/2)まとめ・RR-with-priorは事前確率を使う事で予測の精度を大幅に増加させる・経験的実験でもLabelDPがモデルの実用性を大幅に向上させる事...

2022.06.08

プライバシー学習手法

１．LabelDP：秘匿対象をラベルに限定する事で差分プライバシーの精度を向上(1/2)まとめ・米国国勢調査も採用している差分プライバシーは製品を実世界に展開する際に良く使われる・差分プライバシーを使うとシステムがプライバシーをどの程度...

2022.06.07

プライバシー学習手法

１．CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)まとめ・CoCaモデルは、最小限の改造で多くのタスクに対して直接微調整を行うことが可能・CoCaは画像分類やクロスモーダル検索などのゼロショットでも最先端モ...

2022.06.06

モデル学習手法

１．CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)まとめ・機械学習モデルは幅広いタスクに対応可能な大規模基盤モデルを元に設計する事が多い・自然言語処理では、BERT、T5、GPT-3などの事前学習済大規模モ...

2022.06.05

モデル学習手法

１．30億のパラメータを持つ巨大モデルを学習させた際の知見まとめ・非常に巨大なモデルを学習させる際は混合精度と全精度で違いが出る可能性がある・通常の学習では問題は発生しないが学習の収束が見込めるトレーニングの後半に出る・DALL·E ...

2022.06.04

学習手法画像生成

１．ViT-VQGAN：画像量子化技術を再考して画像生成と画像理解の性能を向上(2/2)まとめ・VIMは犬や猫など与えられた特定のクラスの画像を合成するクラス条件付き生成が可能・画像理解タスクでも分類精度を60.3%(iGPT-L)から...

2022.06.03

モデル

１．ViT-VQGAN：画像量子化技術を再考して画像生成と画像理解の性能を向上(1/2)まとめ・事前学習は入力信号が文章である事を仮定しないので量子化すれば画像も扱う事が可能・画像を離散トークンにエンコードし、それをCNNまたはTran...

2022.06.02

モデル

１．Googleアシスタントが文脈を意識できる理由(2/2)まとめ・言い換えシステムは3種の異なるタイプの生成器を用いて候補を生成している・言い換え候補からいくつかの信号を抽出しMLモデルで最も有望な候補を選択・本手法は、問い合わせ文...

2022.06.01

アプリケーション