generative ai

学習手法

HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(2/2)

1.HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(2/2)まとめ ・HuBERTは完全に音声データだけでトレーニングされたNLPシステムを開発するのに役立つ ・AI音声アシスタントは人が発音するニュアンスや感情を考慮し...
入門/解説

50億のパラメータを持つ人工知能はどこかぁ~に君ぃ~を隠しているからぁ~♪の続きを歌えるのか?

1.50億のパラメータを持つ人工知能はどこかぁ~に君ぃ~を隠しているからぁ~♪の続きを歌えるのか?まとめ ・10億版に比べて50億版の表現力は明らかにあがっており違和感が減っている ・特に英語の歌では人工知能によって補完された歌である事に気...
入門/解説

10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?

1.10億のパラメータを持つ人工知能は張り詰めたぁ~弓のぉ~震える弦よぉ~♪の続きを歌えるのか?まとめ ・未完の文章や画像の続きを作風を合わせて完成させる事が出来る人工知能が発表されている ・Jukeboxは同様に生の音楽のイントロの続きを...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い ・ダウンサンプリングとアップサンプリングを行っているためノ...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介 ・CD品質の音楽は1,000万を超えるタイムステップ...
モデル

DALL·E:文章から画像を作成(3/3)

1.DALL·E:文章から画像を作成(3/3)まとめ ・DALL·EはGPT-3同様、説明と手がかりを与えるだけで追加学習なしで様々なタスクを実行可 ・視覚IQテストでは簡単な類推問題は解く事ができたが複雑な問題は解く事ができなかった ・地...
モデル

DALL·E:文章から画像を作成(2/3)

1.DALL·E:文章から画像を作成(2/3)まとめ ・DALL·Eでは、画像に対する視点や3Dスタイル、光学的歪みも制御できる ・「極端に拡大した視点」や「X線」スタイルで断面図や接写構図の画像も可能 ・入力文に指定されていない撮影状況の...
モデル

DALL·E:文章から画像を作成(1/3)

1.DALL·E:文章から画像を作成(1/3)まとめ ・自然言語で記述した様々な概念を参考にして画像を作成する事ができるDALL·EをOpenAIが発表 ・DALL·Eは、テキストと画像のペアを使用して訓練されたGPT-3の120億パラメー...
入門/解説

GPT-2が自動生成したその他の文章(1/3)

1.GPT-2が自動生成したその他の文章(1/3)まとめ ・GPT-2が出力したユニコーン以外の文章の紹介 ・プレスリリース、ニュース、芸能ニュース、の3種類 ・部署名等は実在の名称を入れてくるので流し読みしていると読めてしまう 2.GPT...
モデル

GAN LAB:あなたのブラウザでGANで遊んでみましょう!(2/2)

1.GAN LAB:あなたのブラウザでGANで遊んでみましょう!(2/2)まとめ ・ブラウザ上でGANの概念を直観的に理解するGAN LABの具体的な操作についての説明 ・ジェネレータとディスクリミネータを互いに競わせてフェイクサンプルを本...