computer vision

モデル

LFNRとGPNR:反射するCDを含む場面の視線合成が可能な新手法(1/2)

1.LFNRとGPNR:反射するCDを含む場面の視線合成が可能な新手法(1/2)まとめ ・ある風景の複数の写真から新しい視点を合成する視点合成タスクは長年の課題 ・LFNRではCDの光彩のような視点に依存する効果を再現する課題に取り組んだ ...
学習手法

LOLNeRF:1枚の画像から3次元構造を学ぶ(2/2)

1.LOLNeRF:1枚の画像から3次元構造を学ぶ(2/2)まとめ ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している ・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている ・LOLNeRFは単一...
学習手法

LOLNeRF:1枚の画像から3次元構造を学ぶ(1/2)

1.LOLNeRF:1枚の画像から3次元構造を学ぶ(1/2)まとめ ・2次元画像から3次元形状を理解する手法は複数視点のデータに依存している ・1枚の画像から3次元構造を知ることができると便利だが解決困難とされている ・LOLNeRFは単一...
画像生成

人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?(Craiyon編)

1.人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?(Craiyon編) ・DALL·E miniの開発者の人が提供してくれているCraiyonにナウシカを描いて貰う試み ・Craiyonは人間の顔の表現がまだ苦手だがナ...
データセット

Google Universal Image Embeddingチャレンジの紹介(1/2)

1.Google Universal Image Embeddingチャレンジの紹介(1/2)まとめ ・物体の属しているクラスではなく特定の実体まで認識する事を実体レベルの認識タスクと言う ・世界に一つしかない物体と多くの複製品を持つ可能性...
モデル

CMT-DeepLa:パノプティックセグメンテーションをクラスタ問題として考える(2/2)

1.CMT-DeepLab:パノプティックセグメンテーションをクラスタ問題として考える(2/2)まとめ ・マスクtransformerをクラスタリングの観点から再定義すると性能と解釈可能性が大幅に向上 ・kMaX-DeepLabは修正が簡単...
モデル

CMT-DeepLa:パノプティックセグメンテーションをクラスタ問題として考える(1/2)

1.CMT-DeepLab:パノプティックセグメンテーションをクラスタ問題として考える(1/2)まとめ ・パノプティックセグメンテーションは車や人等の実体と雲や道路等の意味的存在を同時に扱う ・従来はインスタンスセグメンテーションとセマンテ...
アプリケーション

Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(1/2)

1.Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(1/2)まとめ ・現在のビジュアル検索ツールはトーンやムードといった主観的な概念では検索できない ・Mood Board Searchはムード...
学会

CVPR 2022におけるGoogleの存在感

1.CVPR 2022におけるGoogleの存在感まとめ ・6/19 - 6/23の間、ロサンゼルスのニューオーリンズと仮想空間でCVPR 2022が開催 ・Google社員も多数参加し80を超える受理された出版物や多数のワークショップを開...
データセット

Scanned Objects dataset:日用品を3Dスキャンしたデータセット(2/2)

1.Scanned Objects dataset:日用品を3Dスキャンしたデータセット(2/2)まとめ ・初期のスキャンモデルで摩擦や変形などの表面特性がなくシミュレーションに不適だった ・スキャンモデルをシミュレーションで利用できるよう...
データセット

Scanned Objects dataset:日用品を3Dスキャンしたデータセット(1/2)

1.Scanned Objects dataset:日用品を3Dスキャンしたデータセット(1/2)まとめ ・コンピュータビジョンとロボット工学の進歩は多種多様なデータによって可能に必要となる ・データセットの作成には多大な労力が必要だがそれ...
モデル

CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)

1.CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)まとめ ・機械学習モデルは幅広いタスクに対応可能な大規模基盤モデルを元に設計する事が多い ・自然言語処理では、BERT、T5、GPT-3などの事前学習済大規模モ...