視覚

モデル

CoAtNets:畳み込みと自己注意の利点を備えたハイブリッドモデル(2/2)

1.CoAtNets:畳み込みと自己注意の利点を備えたハイブリッドモデル(2/2)まとめ ・CNNよりTransformerモデルの方が大規模データセットに対応する能力が高い ・CoAtNetsは畳み込みと自己注意を組み合わせたハイブリ...
モデル

拡散モデルを使用してGANより忠実度の高い画像を生成(1/2)

1.拡散モデルを使用してGANより忠実度の高い画像を生成(1/2)まとめ ・画像合成は、GAN、VAE、自己回帰モデル等を使って行われているがどれも一長一短 ・2015年に発表された拡散モデルは安定性と生成サンプルの品質で最近注目を集め...
学会

CVPR 2021におけるGoogleの存在感

1.CVPR 2021におけるGoogleの存在感まとめ ・6/19 - 6/25の間インターネット上のヴァーチャルイベントとしてCVPR 2021が開催 ・Google社員も多数参加し70を超える受理された出版物やワークショップを開催...
データセット

MIAP:Open Images Datasetの人間に付与された境界ボックスをより包含的に(2/2)

1.MIAP:Open Images Datasetの人間に付与された境界ボックスをより包含的に(2/2)まとめ ・Open Imagesは「女の子」のラベルを「女性」に付与するかは作業者の感覚依存であった ・MIAPでは知覚された性別...
アプリケーション

VTN:Transformerを使用した文書レイアウトの自動化(2/2)

1.VTN:Transformerを使用した文書レイアウトの自動化(2/2)まとめ ・レイアウトの品質と多様性という2つの基準に従ってVTNのパフォーマンスを評価 ・従来の研究は配置ルールに準拠できなかったり多様性に問題があったがVTN...
学習手法

RetinaGAN:シミュレーション環境から現実世界への転移を一般化(2/2)

1.RetinaGAN:シミュレーション環境から現実世界への転移を一般化(2/2)まとめ ・RL-CycleGAN は「タスクレベルの物体認識」を使用してsim-to-realギャップを超える ・RetinaGANは「ロボットの物体認識...
学習手法

RetinaGAN:シミュレーション環境から現実世界への転移を一般化(1/2)

1.RetinaGAN:シミュレーション環境から現実世界への転移を一般化(1/2)まとめ ・シミュレーションを使ってロボットを学習させると効率的だが現実世界への転移が難しい ・GANを使ってシミュレーション画像を現実画像に変換したいが変...
アプリケーション

H01:人間の脳の一部をブラウザで閲覧可能な形式に再構築(2/2)

1.H01:人間の脳の一部をブラウザで閲覧可能な形式に再構築(2/2)まとめ ・人間の脳の三次元再構成結果はブラウザから3Dインターフェイスを通じて操作可能 ・Neuroglancerと呼ばれるこのソフトはコネクトミクス コミュニティで...
アプリケーション

H01:人間の脳の一部をブラウザで閲覧可能な形式に再構築(1/2)

1.H01:人間の脳の一部をブラウザで閲覧可能な形式に再構築(1/2)まとめ ・昨年の蝿の脳の視覚化に使った技術を応用して人間の脳の一部の視覚化に成功 ・脳組織の小さなサンプルだがレンダリングしてH01データセットとして公開 ・H01...
学習手法

XMC-GAN:クロスモーダルな対照学習でテキストから画像を生成(1/2)

1.XMC-GAN:クロスモーダルな対照学習でテキストから画像を生成(1/2)まとめ ・テキストの説明文から画像を生成する合成タスクは最近大きな注目を集めている ・従来の画像合成手法はGANを使うケースが多いがモード崩壊などの問題を抱え...
AI関連その他

人々の表情は国や地域が変わっても場面によって共通なのか?(2/2)

1.人々の表情は国や地域が変わっても場面によって共通なのか?(2/2)まとめ ・ビデオ内の場面を自動的に認識させるために2種のDNNを使用した ・表情と場面の相関関係は文化間の違いに関わらず7割程度が同じだった ・逆に言えば地域間で最...
アプリケーション

Project Guideline:視力の弱い人が一人で走れるようにする(2/2)

1.Project Guideline:視力の弱い人が一人で走れるようにする(2/2)まとめ ・既存のデータセットは自動運転車用でランニング用途の学習に使う事が難しかった ・自動運転車用データ、合成データ、本当のランニングデータの3段階...
タイトルとURLをコピーしました