モデル | ページ 6

CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)

１．CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)まとめ・機械学習モデルは幅広いタスクに対応可能な大規模基盤モデルを元に設計する事が多い・自然言語処理では、BERT、T5、GPT-3などの事前学習済大規模モ...

2022.06.05

モデル学習手法

１．ViT-VQGAN：画像量子化技術を再考して画像生成と画像理解の性能を向上(2/2)まとめ・VIMは犬や猫など与えられた特定のクラスの画像を合成するクラス条件付き生成が可能・画像理解タスクでも分類精度を60.3%(iGPT-L)から...

2022.06.03

モデル

１．ViT-VQGAN：画像量子化技術を再考して画像生成と画像理解の性能を向上(1/2)まとめ・事前学習は入力信号が文章である事を仮定しないので量子化すれば画像も扱う事が可能・画像を離散トークンにエンコードし、それをCNNまたはTran...

2022.06.02

モデル

１．VFS：強化学習で長期目線が必要な行動を実現(1/2)まとめ・強化学習の進歩によりロボットは複雑なタスクを実行できるようになった・しかし、可能なのは短期目線タスクで長期目線が必要なタスクは困難・VFSで長期目線を持たせると状態と行...

2022.05.14

モデルロボット

１．Pix2Seq：言語モデルを使って物体検出を行う(2/2)まとめ・Pix2Seqでは物体検出を言語モデリングタスクとみなしており特別な設計をしていない・システムの出力が比較的簡潔なトークンの並びで表現されるような領域に応用可能・幅...

2022.05.12

モデル学習手法

１．Pix2Seq：言語モデルを使って物体検出を行う(1/2)まとめ・物体検出タスクを行う従来のアプローチは高度にカスタマイズされており汎用性がない・物体検出タスクを画素を入力とする言語モデリングタスクとみなすPix2Seqを考案・P...

2022.05.11

モデル学習手法

１．LiT：画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(2/2)まとめ・転移学習は精度は高いがタスク毎に手間がかかり対照学習はその逆で性能面に難があった・LiTは画像エンコーダの学習をロックする事でこの性能ギャップを半...

2022.05.04

モデル

１．LiT：画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(1/2)まとめ・画像分類などでは事前学習後にタスク毎に微調整に固有データが必要になるので手間がかかる・代替手法には画像とテキストを使う対照学習があるが微調整手法に...

2022.05.03

モデル

１．VDTTS：視覚駆動型の音声合成モデル(2/2)まとめ・TTSおよびTTS with length hintの両モデルより様々な観点でVDTTSは大きく優れている・VDTTSはビデオフレームのみを使って話者が何を話しているかを予測す...

2022.04.24

モデル

１．VDTTS：視覚駆動型の音声合成モデル(1/2)まとめ・ノイズの多い環境で録音されたオリジナルの音声をスタジオで再録音し品質を高める時がある・新たに録音した音声と映像の同期を取る必要がありこの作業は難しく、面倒な作業となる・VDT...

2022.04.23

モデル

１．PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(3/3)まとめ・PythonコードのみのデータセットでPaLMを微調整するとさらなる性能向上を確認できた・規模拡大可能な巨大言語モデルの誤用対策は現在進行中の課題で透...

2022.04.17

モデル

１．PaLM:5400億パラメータを持つ革新的なパスウェイ言語モデル(2/3)まとめ・PaLMの性能はモデル規模の関数として表現でき、性能が更に向上可能である事が示唆される・PaLMは適切な文脈で概念の組み合わせを理解するので絵文字から...

2022.04.16

モデル