visual recognition

CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)

１．CoCa：様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)まとめ・CoCaモデルは、最小限の改造で多くのタスクに対して直接微調整を行うことが可能・CoCaは画像分類やクロスモーダル検索などのゼロショットでも最先端モ...

2022.06.06

モデル学習手法

１．VDTTS：視覚駆動型の音声合成モデル(1/2)まとめ・ノイズの多い環境で録音されたオリジナルの音声をスタジオで再録音し品質を高める時がある・新たに録音した音声と映像の同期を取る必要がありこの作業は難しく、面倒な作業となる・VDT...

2022.04.23

モデル

１．文字情報と画像情報を同じ概念として認識できる人工知能の出現(1/2)まとめ・特定の女優さんの画像や名前に反応するニューロンが人間の脳内で見つかった事がある・ネットワークで機能するので特定のニューロンが反応するのはおかしいと反論があっ...

2021.04.06

モデル基礎理論