視覚

アプリケーション

URL2Video:Webページから自動でビデオを作成する実験(1/2)

1.URL2Video:Webページから自動でビデオを作成する実験(1/2)まとめ ・URL2Videoは指定された制約を元にWebページを短いビデオに自動変換する研究段階のソフト ・HTMLから資産とそのスタイルを抽出し同様の見た目と感性...
入門/解説

Captum:PyTorchのモデル解釈用ライブラリ

1.Captum:PyTorchのモデル解釈用ライブラリまとめ ・CaptumはPyTorch用の解釈用ライブラリで最先端のアルゴリズムが利用可能になる ・モデルの出力に寄与する特徴表現の識別が容易になり設計改善や出力調査が可能になる ・視...
モデル

Image GPT:自然言語処理用の人工知能で画像を生成(3/3)

1.Image GPT:自然言語処理用の人工知能で画像を生成(3/3)まとめ ・iGPTが強力な画像特徴表現を学習可能で教師有り、半教師モデルと匹敵する事が示された ・しかしGPUにV100を使って延べ2500日が必要で画像専用モデルの約3...
アプリケーション

rǝ:ディープラーニングとクラウドソーシングで昔の街並みを再現(1/2)

1.rǝ:ディープラーニングとクラウドソーシングで昔の街並みを再現(1/2)まとめ ・昔の町並みをタイムトラベラー体験出来るrǝと呼ばれるブラウザベースのツールが公開 ・rǝは今年リリースされたオープンソースツールで過去地図や写真から都市を...
アプリケーション

YouTubeストーリーで人の声だけ音量を上げる(2/2)

1.YouTubeストーリーで人の声だけ音量を上げる(2/2)まとめ ・Looking to Listenはノイズを完全分離していたがユーザは一部を残す事を好んでいた ・年齢、肌の色、言語、声の高低、話者の顔の視認性により偏りがないようにチ...
アプリケーション

YouTubeストーリーで人の声だけ音量を上げる(1/2)

1.YouTubeストーリーで人の声だけ音量を上げる(1/2)まとめ ・バックグラウンドノイズが大きいビデオでは被写体のスピーチが曖昧になり理解しにくい ・Looking to Listenは音声と口の動きなどの視覚信号を使い特定の人の音声...
AI関連その他

DELG:インスタンスレベルの画像認識の進歩(2/2)

1.DELG:インスタンスレベルの画像認識の進歩(2/2)まとめ ・今年はランドマークを対象とした2つの新しいコンペをKaggleで開催 ・1,200を超えるチームが集まりDELGの基準スコアを大幅に上回った ・メトロポリタン美術館のデータ...
AI関連その他

DELG:インスタンスレベルの画像認識の進歩(1/2)

1.DELG:インスタンスレベルの画像認識の進歩(1/2)まとめ ・インスタンスレベルの画像認識(ILR)とは特定の実体(インスタンス)を認識するタスク ・GoogleはGoogleランドマークデータセットなどでILRの進歩に貢献してきた ...
モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)まとめ ・PWILは敵対的手法でないためエージェントとエキスパートを直接類似させる事が可能 ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWIL...
ヘルスケア

C2D2:機械学習を使用して大腸癌の内視鏡検査の精度を向上(1/2)

1.機械学習を使用して大腸癌の内視鏡検査の精度を向上(1/2)まとめ ・大腸内視鏡検査で悪性のポリープを検出し、除去する事で大腸癌を予防する事が可能 ・内視鏡医は検査中に平均して22%~28%のポリープを見逃している可能性が示唆されている ...
入門/解説

対照学習で最良のビューを選択するための原則(1/2)

1.対照学習で最良のビューを選択するための原則(1/2)まとめ ・異なる角度から物体をみても、それが同じ物体である事を認識するのは機械にとって困難 ・これを実現する主な手法は対照学習と言いラベル付きデータを必要としない自己教師型 ・Info...
入門/解説

RWRL:強化学習の課題に取り組むための一連のシミュレーション(2/2)

1.RWRL:強化学習の課題に取り組むための一連のシミュレーション(2/2)まとめ ・RWRLは現在のRLが抱える9つの異なる課題のうち8つに関連する実験を行う機能を提供 ・複数の課題と難易度レベルを組み合わせた環境でアルゴリズムをテストす...