computer vision

シネマティックフォトの背後にある技術(2/2)

１．シネマティックフォトの背後にある技術(2/2)まとめ・引き延ばした部分の人工物が見えないようにカメラ軌道を最適化している・アスペクト比を維持するために目立たせたい部分を予測するニューラルネットワークも活用・Cinematic p...

2021.03.09

アプリケーション

シネマティックフォトの背後にある技術(1/2)

１．シネマティックフォトの背後にある技術(1/2)まとめ・昨年12月Googleフォトの新機能としてシネマティックフォトが公開された・人物を背景から切り離して動かす事で写真を撮った当時の没入感を再現・Google フォトの上部に出...

2021.03.08

アプリケーション

TensorFlow 3Dによる3Dシーンの理解(1/2)

１．TensorFlow 3Dによる3Dシーンの理解(1/2)まとめ・3Dセンサーの普及が進んでおり三次元データを処理できるテクノロジーが求められている・3Dデータに適用できるツールとリソースは限られており分野への参入は困難な場合がある...

2021.02.24

アプリケーションモデル

Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)

１．Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)まとめ・Pr-VIPEを使用して異なった視点から撮影された動画から同じポーズを検索する事が可能・カメラパラメータを使用せずに異なる視点から同じポーズを取...

2021.01.25

アプリケーション基礎理論

Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)

１．Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)まとめ・人間の姿勢を画像や動画などで2次元として撮影するとカメラの視点によって見え方が異なる・二次元情報のみを使用して三次元ポーズの類似性を認識できると...

2021.01.24

アプリケーション基礎理論

Google Research：2020年の振り返りと2021年以降に向けて(4/5)

１．Google Research：2020年の振り返りと2021年以降に向けて(4/5)まとめ・アルゴリズム基礎は主に本業の広告オークション関係で注目すべき結果が多かった・機械知覚は音声と映像を組み合わせて学習する等のマルチモーダルな...

2021.01.16

AI関連その他

CLIP：学習していない視覚タスクを実行可能なニューラルネット(2/3)

１．CLIP：学習していない視覚タスクを実行なニューラルネット(2/3)まとめ・ゼロショット機能実現は単純に事前トレーニングタスクを規模拡大するだけで十分だった・CLIPは視覚タスクの抱える課題であるデータが高コストである事などを軽減す...

2021.01.10

モデル

DALL·E：文章から画像を作成(2/3)

１．DALL·E：文章から画像を作成(2/3)まとめ・DALL·Eでは、画像に対する視点や3Dスタイル、光学的歪みも制御できる・「極端に拡大した視点」や「X線」スタイルで断面図や接写構図の画像も可能・入力文に指定されていない撮影状況の...

2021.01.07

モデル

MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(2/2)

１．MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(2/2)まとめ・MediaPipe Holisticは2017年モデルや中価格帯のスマホほぼリアルタイムで実行可能・モデルがほとんど独立しているため、速...

2020.12.12

アプリケーションモデル

MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(1/2)

１．MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(1/2)まとめ・MediaPipeはスマホで人間のポーズ、顔、手をリアルタイムで認識するフレームワーク・従来のMediaPipeシリーズは各モデルで個々...

2020.12.11

アプリケーションモデル

ディープラーニングと自然言語、コンピュータビジョン用Python人気ライブラリ2020年版

１．ディープラーニングと自然言語、コンピュータビジョン用Python人気ライブラリ2020年版まとめ・ディープラーニングと自然言語、コンピュータビジョン用Python人気ライブラリ30選・一般的なデータサイエンス用ツールは対象外とし、ニ...

2020.12.09

入門／解説

ViT：規模拡大可能な画像認識用のTransformers(2/2)

１．ViT：規模拡大可能な画像認識用のTransformers(2/2)まとめ・画像タスク用に特化したモデルは不要であるか最適ではない可能性がある・データのサイズが増え続けており画像タスクに関する新しいアプローチが必要・ViTは視覚タ...

2020.12.05

モデル

computer vision

シネマティック フォトの背後にある技術(2/2)

シネマティック フォトの背後にある技術(1/2)

TensorFlow 3Dによる3Dシーンの理解(1/2)

Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(2/2)

Pr-VIPE：異なる視点から撮影した画像間で人間の姿勢の類似性を認識(1/2)

Google Research：2020年の振り返りと2021年以降に向けて(4/5)

CLIP：学習していない視覚タスクを実行可能なニューラルネット(2/3)

DALL·E：文章から画像を作成(2/3)

MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(2/2)

MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(1/2)

ディープラーニングと自然言語、コンピュータビジョン用Python人気ライブラリ2020年版

ViT：規模拡大可能な画像認識用のTransformers(2/2)

シネマティックフォトの背後にある技術(2/2)

シネマティックフォトの背後にある技術(1/2)