computer vision

モデル

ViT:規模拡大可能な画像認識用のTransformers(1/2)

1.ViT:規模拡大可能な画像認識用のTransformers(1/2)まとめ ・畳み込みニューラルネットワークは画像専用に設計されたため計算量が多くなる可能性がある ・次世代の計算効率の高い視覚モデルが求められておりVision Tran...
データセット

三次元物体認識のためのObjectronデータセットの発表(2/2)

1.三次元物体認識のためのObjectronデータセットの発表(2/2)まとめ ・使用法やチュートリアルなどObjectronデータセットの技術的な詳細はgithubで入手可能 ・データセットには、自転車、本、ボトル、カメラ、椅子、カップ、...
入門/解説

Image GPTの画像補完の実例

1.Image GPTの画像補完の実例まとめ ・対称形なデザインはかなりの精度で補完されるが非対称デザインは凄い事になる場合がある ・S、M、Lの順にオリジナル画像を補完して再現する能力が上がっているようにみえる ・自然画像をそれっぽい物体...
モデル

Image GPT:自然言語処理用の人工知能で画像を生成(3/3)

1.Image GPT:自然言語処理用の人工知能で画像を生成(3/3)まとめ ・iGPTが強力な画像特徴表現を学習可能で教師有り、半教師モデルと匹敵する事が示された ・しかしGPUにV100を使って延べ2500日が必要で画像専用モデルの約3...
AI関連その他

DELG:インスタンスレベルの画像認識の進歩(1/2)

1.DELG:インスタンスレベルの画像認識の進歩(1/2)まとめ ・インスタンスレベルの画像認識(ILR)とは特定の実体(インスタンス)を認識するタスク ・GoogleはGoogleランドマークデータセットなどでILRの進歩に貢献してきた ...
モデル

KeyPose:ステレオ画像で透明物体の三次元ポーズ推定を更に改良(1/2)

1.KeyPose:ステレオ画像で透明物体の三次元ポーズ推定を更に改良(1/2)まとめ ・透明な物体に対しては既存の深度センサーはうまく機能せず距離が測定できない ・以前紹介したClearGraspはニューラルネットで深度センサーの出力した...
モデル

Axial-DeepLab:パノプティックセグメンテーション用にattentionを改良(2/2)

1.Axial-DeepLab:パノプティックセグメンテーション用にattentionを改良(2/2)まとめ ・self-attentionは離れた位置の情報も集約できるが位置情報は提供しなかった ・相対位置などの情報を特徴表現に含めるよう...
学会

ECCV 2020におけるGoogleの存在感

1.ECCV 2020におけるGoogleの存在感まとめ ・8/23から8/28の間インターネット上のヴァーチャルイベントとしてECCV 2020が開催 ・Google社員も多数参加し50を超える論文の発表やワークショップを開催 ・本サイト...
入門/解説

対照学習で最良のビューを選択するための原則(1/2)

1.対照学習で最良のビューを選択するための原則(1/2)まとめ ・異なる角度から物体をみても、それが同じ物体である事を認識するのは機械にとって困難 ・これを実現する主な手法は対照学習と言いラベル付きデータを必要としない自己教師型 ・Info...
ヘルスケア

Lookout:視覚に困難を抱える人のためにスマホで商品を識別(1/2)

1.Lookout:視覚に困難を抱える人のためにスマホで商品を識別(1/2)まとめ ・Lookoutは視覚に困難があっても現実世界で活躍できるようにするAndroidアプリ ・スマートフォンカメラをスーパーの陳列棚に向けるとLookoutは...
モデル

MediaPipe KNIFT:テンプレートベースの画像検索を改善(3/3)

1.MediaPipe KNIFT:テンプレートベースの画像検索を改善(3/3)まとめ ・一時停止標識の識別デモではKNIFTが240中183、ORBは133フレームのマッチングに成功 ・困難なデモでもKNIFTが150中89、ORBは37...
モデル

MediaPipe KNIFT:テンプレートベースの画像検索を改善(2/3)

1.MediaPipe KNIFT:テンプレートベースの画像検索を改善(2/3)まとめ ・ハード ネガティブ トリプレット マイニングにより学習用データの品質を向上している ・KNIFTを数十億規模画像データセットに対して迅速な画像検索を行...