computer vision

SadTalker:任意の音声に合わせて口パクする動画を一枚絵から生成(Colab、Spaceあり)

１．SadTalker:任意の音声に合わせて口パクする動画を一枚絵から生成(Colab、Spaceあり)まとめ・任意の音声に合わせて口パクする動画を一枚絵や動画から生成するAIであるSadTalkerが誰でも動かせる形で公開された・Sa...

2023.03.31

入門／解説画像生成

１．2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(5/5)まとめ・本稿ではGoogleの責任あるAIの原則を改めて解説し2022年のテーマを総括して振り返る・個々のテーマは各事業担当者がそれぞれ別記事...

2023.01.25

AI関連その他

１．2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(2/5)まとめ・MaxViTはオリジナルのVision Transformerの計算量削減に成功し、より効率的に規模を拡大可能にした・Pix2Seqは...

2023.01.21

AI関連その他

１．2022年のGoogleのAI研究の成果と今後の展望～言語・視覚・生成モデル編～(1/5)まとめ・年初恒例のGoogle AI TopのJeff DeanによるGoogleの人工知能関連研究の2022年の振返と今年の展望・今年はシリ...

2023.01.20

AI関連その他

１．InfiniteNature-Zero：静止画の奥に向かって鳥のように飛んでいく動画を無限に生成(1/2)まとめ・素晴らしい自然の風景内を鳥のように飛び回ることが出来たら応用範囲が広い・Infinite Natureと名付けた研究で...

2022.11.11

アプリケーション画像生成

１．人工知能を使って歴史的な写真や絵画を立体化まとめ・CVPR 2020で発表されたモデルを使うと古い写真や絵画を動画化してグリグリ動かせる・ややぼやけてしまっているような歴史上の有名な写真も３D化できる・もちろん、Stable di...

2022.11.10

アプリケーション画像生成

１．Imagic:写真内の人物の表情をプロンプトで直接編集な人工知能まとめ・stable diffusionを流用して画像を自由に編集できるImagicが公開されている・表情や構成など写真内の物体をプロンプトを使って自由に編集可能な高性...

2022.11.05

アプリケーション画像生成

１．Open Images V7:新たに疎らなラベルであるポイントラベルを採用(2/2)まとめ・Open Images v7は注釈データを視覚化する仕組みも従来より充実している・ポイントレベル注釈を含む全ての注釈を確認できるオールインワ...

2022.11.01

データセット

１．ECCV 2022におけるGoogleの存在感まとめ・10月23日から27日の間、イスラエルとヴァーチャル空間でECCV 2022が開催・Google社員も多数参加し60を超える論文の発表やワークショップを開催・本サイトで概要を翻...

2022.10.30

学会

１．MUSIQ:フルサイズ画像で美観評価と技術的品質評価を行う(2/2)まとめ・MUSIQは入力のエンコーディングを変更するだけなので互換性が高い・MUSIQは従来手法と比較して画像品質評価で最先端のスコアを出せる・MUSIQは画像品...

2022.10.26

画像生成基礎理論

１．分類精度が高すぎるモデルは知覚的類似度を予測する用途に不向き(1/2)まとめ・画素の違いから画像の類似性を推定する方法は人の知覚とあまり一致しない・画像分類器内の中間特徴表現を使うと知覚的類似性に近い分類が出来る・どのような画像分...

2022.10.23

基礎理論

１．FILM：２つの異なる写真の間を補完して動画を生成(1/2)まとめ・フレーム補間とは与えられた画像セットから中間画像を合成する事・写真間を補間することで臨場感のある魅力的な映像にしたり応用範囲が広い・FILMは複製に近い写真から高...

2022.10.08

アプリケーション画像生成