image-text

入門/解説

infinite zoom outとzoom in:stable diffusionで作成したイラストを無限にズームして動画を作成

1.infinite zoom outとzoom in:stable diffusionで作成したイラストを無限にズームして動画を作成まとめ ・stable diffusionで画面の奥に向かってひたすらカメラが進む or 引いていく動画を...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(4/5)

1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(4/5)まとめ ・画像、映像、音声用の生成モデルの品質と能力は、2022年に本当に驚くべき、驚異的な進歩を見せた ・GoogleはImagen Video...
画像生成

DreamBoothで鬼滅の刃の隊服をナウシカに着てもらう事は妥協すれば可能

1.DreamBoothで鬼滅の刃の隊服をナウシカに着てもらう事は妥協すれば可能まとめ ・指定の仕方を工夫すると「服と羽織」は同時に取り込む事が出来た ・概念は絵柄など、他のスタイルにも影響を与えるので組み合わせ困難 ・3概念を同時に組み合...
アプリケーション

人工知能を使って歴史的な写真や絵画を立体化

1.人工知能を使って歴史的な写真や絵画を立体化まとめ ・CVPR 2020で発表されたモデルを使うと古い写真や絵画を動画化してグリグリ動かせる ・ややぼやけてしまっているような歴史上の有名な写真も3D化できる ・もちろん、Stable di...
アプリケーション

Imagic:写真内の人物の表情をプロンプトで直接編集な人工知能

1.Imagic:写真内の人物の表情をプロンプトで直接編集な人工知能まとめ ・stable diffusionを流用して画像を自由に編集できるImagicが公開されている ・表情や構成など写真内の物体をプロンプトを使って自由に編集可能な高性...
データセット

XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)

1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)まとめ ・36言語のほとんどで適切な地域から100枚の画像を収集する事に成功した ・注釈付け作業も画像の内容のみに基づいてキャプションを生成す...
モデル

PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)

1.PaLI:言語-画像モデルを100以上の言語に規模拡大(1/2)まとめ ・言語モデルは規模拡大すると多様な能力を発揮できるようになり成功している ・視覚と言語を同時に扱う視覚-言語モデルの規模拡大と多言語化対応に挑戦した ・109言語に...
画像生成

人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?(Craiyon編)

1.人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?(Craiyon編) ・DALL·E miniの開発者の人が提供してくれているCraiyonにナウシカを描いて貰う試み ・Craiyonは人間の顔の表現がまだ苦手だがナ...
アプリケーション

Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(2/2)

1.Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(2/2)まとめ ・ユーザが作成したムードボードに対するモデルの感度を見つけるためにCAVを使用 ・各ムードボードがCAVを作り、ツールが画像デ...
アプリケーション

Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(1/2)

1.Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(1/2)まとめ ・現在のビジュアル検索ツールはトーンやムードといった主観的な概念では検索できない ・Mood Board Searchはムード...
モデル

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)

1.LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)まとめ ・多様な情報を処理可能なマルチモーダルモデルは将来が有望視されているが密モデルでは困難 ・疎モデルは規模拡大の容易性と情報同士を組み合わせて性能を向...
モデル

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)

1.LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(1/2)まとめ ・従来の密なモデルに比べると疎らなスパースモデルは規模拡大が用意で将来的に有望 ・疎なモデルは密なモデルが直面するマルチタスク時の性能悪化や破局的忘...