computer vision

モデル

Pix2Seq:言語モデルを使って物体検出を行う(2/2)

1.Pix2Seq:言語モデルを使って物体検出を行う(2/2)まとめ ・Pix2Seqでは物体検出を言語モデリングタスクとみなしており特別な設計をしていない ・システムの出力が比較的簡潔なトークンの並びで表現されるような領域に応用可能 ・幅...
ヘルスケア

目を正面から撮影した写真で病気の兆候を検出(3/3)

1.目を正面から撮影した写真で病気の兆候を検出(3/3)まとめ ・身体的特徴が異なる患者群に対しても比較対象モデルより予測性が高かった ・広く商用利用するためには必要な画質レベルの把握など多くの追加研究が必要 ・包括的なデータセットで更にテ...
学習手法

StylEx:犬と猫の違いは何かを視覚的に説明する新しい手法(1/2)

1.StylEx:犬と猫の違いは何かを視覚的に説明する新しい手法(1/2)まとめ ・ニューラルネットワークが何に着目して画像を分類しているか特定する事は困難 ・従来手法は注目している場所や全体的な特徴はわかるが特徴が分離できていない ・St...
モデル

V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(2/2)

1.V-MoEs:条件付き計算を使って視覚モデルの規模を拡大(2/2)まとめ ・Batch Priority Routingにより優先度の低いトークンを捨てる事を強制 ・従来手法ではバッファ容量不足時に性能が低下するがBPRは堅牢 ・ルーテ...
その他の調査

Google Research:2022年以降にAIはどのように進化していくか?(4/6)

1.Google Research:2022年以降にAIはどのように進化していくか?(4/6)まとめ ・物理学から生物学、再生可能エネルギーや医療などの関連領域でMLのインパクトが高まる ・コンピュータビジョンモデルは個人的な問題から地球規...
学習手法

TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(1/2)

1.TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(1/2)まとめ ・Vision Transformerは画像をトークン単位で扱うので画像の大域的な特徴をつかむ事ができる ・課題は...
基礎理論

Underspecification:検証データで測定した精度のみに頼る事の落とし穴(2/3)

1.Underspecification:検証データで測定した精度のみに頼る事の落とし穴(2/3)まとめ ・ImageNetで良好に機能する画像分類モデルは破損画像では不十分な性能しか出せない ・ImageNetで同等パフォーマンスを達成す...
学会

ICCV 2021におけるGoogleの存在感

1.ICCV 2021におけるGoogleの存在感まとめ ・10/10-10/17にネット上のヴァーチャルイベントとしてICCV 2021が開催 ・Google社員も多数参加し50以上の出版物の公開やワークショップを開催 ・本サイトで概要を...
モデル

Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2)

1.Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2)まとめ ・人はなじみのない建物内でも視覚的な手がかりを利用して効率的に移動できる ・この機能をAIで実現するためには「視覚的な世界モデル」の実装が必要と...
モデル

Deep-MARC:初めてみる物体をマスクする能力を向上する秘訣(2/2)

1.Deep-MARC:初めてみる物体をマスクする能力を向上する秘訣(2/2)まとめ ・典型的なmask R-CNNの実装は完全教師有り設定ではパフォーマンスに影響を与えなかった ・部分的教師有り設定ではcropping-to-ground...
モデル

Deep-MARC:初めてみる物体をマスクする能力を向上する秘訣(1/2)

1.Deep-MARC:初めてみる物体をマスクする能力を向上する秘訣(1/2)まとめ ・境界ボックス形式ではなくマスク形式のラベルを作成する際に性能が低下する要因を特定 ・一部のみがマスク形式ラベルを持つ部分的教師あり設定でも高パフォーマン...
基礎理論

教師あり学習を使って外れ値を発見する(2/3)

1.教師あり学習を使って外れ値を発見する(2/3)まとめ ・通常の対照学習は、異常値ではない通常のサンプルの特徴表現が球上に均一に分散される ・1クラス対照学習では支障が出るため分布増強(DA:Distribution Augmentati...