image recognition

入門/解説

最新の人工知能はスタジオジブリの映画を知っているのか?

1.最新の人工知能はスタジオジブリの映画を知っているのか?まとめ ・最新の人工知能はジブリの映画を記憶しているのではないかと言う疑惑があった ・「ジブリ映画の画像」と「英語版タイトル一覧」を与えてゼロショット分類して貰った ・海外で有名な作...
アプリケーション

IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)

1.IconNet:スマホ画面上のアイコンを検出して音声でアプリ操作を可能にする(1/2)まとめ ・Android用アプリのVoice Accessを使用するとユーザーは口頭で指示してアプリ操作可能 ・アイコン情報を提供していないアプリもあ...
入門/解説

最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか?

1.最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか?まとめ ・見た事がない分野の画像もかなりの精度で分類できる最新の人工知能CLIPの性能評価 ・スタジオジブリのアニメーション映画の名場面を切り出して画像認識して精度を確認 ...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(3/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(3/3)まとめ ・CLIPは一般的な物体認識には優れているが抽象的または体系的なタスクには苦戦 ・CLIPは、言葉遣いや言い回しに過敏で機能させるために試行錯誤も必要 ・分類対...
モデル

ViT:規模拡大可能な画像認識用のTransformers(2/2)

1.ViT:規模拡大可能な画像認識用のTransformers(2/2)まとめ ・画像タスク用に特化したモデルは不要であるか最適ではない可能性がある ・データのサイズが増え続けており画像タスクに関する新しいアプローチが必要 ・ViTは視覚タ...
モデル

ViT:規模拡大可能な画像認識用のTransformers(1/2)

1.ViT:規模拡大可能な画像認識用のTransformers(1/2)まとめ ・畳み込みニューラルネットワークは画像専用に設計されたため計算量が多くなる可能性がある ・次世代の計算効率の高い視覚モデルが求められておりVision Tran...
AI関連その他

DELG:インスタンスレベルの画像認識の進歩(2/2)

1.DELG:インスタンスレベルの画像認識の進歩(2/2)まとめ ・今年はランドマークを対象とした2つの新しいコンペをKaggleで開催 ・1,200を超えるチームが集まりDELGの基準スコアを大幅に上回った ・メトロポリタン美術館のデータ...
AI関連その他

DELG:インスタンスレベルの画像認識の進歩(1/2)

1.DELG:インスタンスレベルの画像認識の進歩(1/2)まとめ ・インスタンスレベルの画像認識(ILR)とは特定の実体(インスタンス)を認識するタスク ・GoogleはGoogleランドマークデータセットなどでILRの進歩に貢献してきた ...
ヘルスケア

C2D2:機械学習を使用して大腸癌の内視鏡検査の精度を向上(2/2)

1.機械学習を使用して大腸癌の内視鏡検査の精度を向上(2/2)まとめ ・合成したビデオを使った性能検証ではC2D2は医師グループの2.4倍の精度を達成した ・実際のビデオを使った検証ではC2D2の採点を医師グループは93%の割合で正しいと評...
モデル

Axial-DeepLab:パノプティックセグメンテーション用にattentionを改良(2/2)

1.Axial-DeepLab:パノプティックセグメンテーション用にattentionを改良(2/2)まとめ ・self-attentionは離れた位置の情報も集約できるが位置情報は提供しなかった ・相対位置などの情報を特徴表現に含めるよう...
アプリケーション

Lookout:視覚に困難を抱える人のためにスマホで商品を識別(2/2)

1.Lookout:視覚に困難を抱える人のためにスマホで商品を識別(2/2)まとめ ・LookoutはMediaPipe Box trackingやScaNNを使って実装されている ・大規模な分類モデルであるNASNetを教師モデルとしてト...
モデル

MediaPipe KNIFT:テンプレートベースの画像検索を改善(3/3)

1.MediaPipe KNIFT:テンプレートベースの画像検索を改善(3/3)まとめ ・一時停止標識の識別デモではKNIFTが240中183、ORBは133フレームのマッチングに成功 ・困難なデモでもKNIFTが150中89、ORBは37...