generative ai

入門/解説

ゴールデンウィークは生成AIを楽しもう!オンライン無料体験講座開講のお知らせ

1.ゴールデンウィークは生成AIを楽しもう!オンライン無料体験講座開講のお知らせまとめ・何かを始めるのに演技の良い日といわれる一粒万倍日にWebbigdata e-learningという新サービスをスタート・情報や知識、ノウハウがAIに全て...
入門/解説

SadTalker:任意の音声に合わせて口パクする動画を一枚絵から生成(Colab、Spaceあり)

1.SadTalker:任意の音声に合わせて口パクする動画を一枚絵から生成(Colab、Spaceあり)まとめ・任意の音声に合わせて口パクする動画を一枚絵や動画から生成するAIであるSadTalkerが誰でも動かせる形で公開された・SadT...
ヘルスケア

2022年のGoogleのAI研究の成果と今後の展望~医療編~(2/2)まとめ

1.2022年のGoogleのAI研究の成果と今後の展望~医療編~(2/2)まとめ・産科超音波検査は、質の高い妊産婦ケアの重要な要素ですが低・中所得国の女性の50%が超音波検査を受けられない・低価格でバッテリー駆動の超音波診断装置とスマート...
AI関連その他

最新のAIテクノロジーを使ってThe Lord of the Ringsの世界観の謎に迫る

1.最新のAIテクノロジーを使ってThe Lord of the Ringsの世界観の謎に迫るまとめ・gpt_indexとLangChainAIを使って、本から関連するすべての文章を抜き出し、GPT3.5に内容について質問をする具体事例の紹...
AI関連その他

2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(4/5)

1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(4/5)まとめ・画像、映像、音声用の生成モデルの品質と能力は、2022年に本当に驚くべき、驚異的な進歩を見せた・GoogleはImagen VideoとP...
画像生成

Stable Diffusion 2.0とStable Diffusion 1.5とStable Diffusion 1.4の比較

1.Stable Diffusion 2.0とStable Diffusion 1.5とStable Diffusion 1.4の比較まとめ・プロンプト中の文字をイラスト内に入れ込む能力が各段に向上している・有名人や版権ものキャラクターの画...
アプリケーション

Imagic:写真内の人物の表情をプロンプトで直接編集な人工知能

1.Imagic:写真内の人物の表情をプロンプトで直接編集な人工知能まとめ・stable diffusionを流用して画像を自由に編集できるImagicが公開されている・表情や構成など写真内の物体をプロンプトを使って自由に編集可能な高性能・...
画像生成

人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?(Craiyon編)

1.人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?(Craiyon編)・DALL·E miniの開発者の人が提供してくれているCraiyonにナウシカを描いて貰う試み・Craiyonは人間の顔の表現がまだ苦手だがナウシ...
アプリケーション

DALL·E Flow:複数のモデルを組み合わせて入力文に基づいたHD画像を作成(1/2)

1.DALL·E Flow:複数のモデルを組み合わせて入力文に基づいたHD画像を作成(1/2)まとめ・DALL·E Flowは幾つかのモデルを連携させてDALL·Eの性能や表現力を底上げする試み・DALL·E と拡散モデルとSwinIRを組...
アプリケーション

DALL·E 2:言葉による指示を理解してリアルな画像や芸術作品を作り出す人工知能

1.DALL·E 2:言葉による指示を理解してリアルな画像や芸術作品を作り出す人工知能まとめ・昨年発表されたDALL·E言語解釈能力と生成画像の品質を更に高めたDALL·E 2が発表された・DALL·Eの画像は少し稚拙な画像もあったがDAL...
モデル

LaMDA:人間より機知に富んだ会話が可能な対話モデル(2/2)

1.LaMDA:人間より機知に富んだ会話が可能な対話モデル(2/2)まとめ・品質指標は微調整の有無にかかわらず、モデルパラメータの数とともに一般に改善する・根拠性はモデルサイズが大きくなると向上するが外部の知識源を参照する事が可能・微調整を...
モデル

AI Choreographer:音楽に合わせたダンスを生成する人工知能(2/2)

1.AI Choreographer:音楽に合わせたダンスを生成する人工知能(2/2)まとめ・FACTはMotion、Audio、Cross-Modalの3種のTransformerから構成される・full-attention mask利用...