モデル

モデル

Apollo:コンピュータアーキテクチャのために機械学習を活用(2/3)

1.Apollo:コンピュータアーキテクチャのために機械学習を活用(2/3)まとめ ・本調査ではアーキテクチャ探索を4つの最適化戦略で実施して結果を比較した ・ランダム探索はランダムに、Vizierはベイズ最適化を用いて探索と開拓のバランス...
モデル

Apollo:コンピュータアーキテクチャのために機械学習を活用(1/3)

1.Apollo:コンピュータアーキテクチャのために機械学習を活用(1/3)まとめ ・最近の機械学習の進歩の要因の1つにTPUなどのカスタムアクセラレータの開発がある ・急速に進化するMLモデルに順応するためにアーキテクチャの革新を続ける必...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い ・ダウンサンプリングとアップサンプリングを行っているためノ...
アプリケーション

Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)

1.Jukebox:歌声を含む生のオーディオを生成可能なニューラルネット(1/2)まとめ ・音楽におけるスタイル転送が歌声を含む生の音声データで可能なOpen AIのJukeboxの紹介 ・CD品質の音楽は1,000万を超えるタイムステップ...
入門/解説

最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか?

1.最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか?まとめ ・見た事がない分野の画像もかなりの精度で分類できる最新の人工知能CLIPの性能評価 ・スタジオジブリのアニメーション映画の名場面を切り出して画像認識して精度を確認 ...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(3/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(3/3)まとめ ・CLIPは一般的な物体認識には優れているが抽象的または体系的なタスクには苦戦 ・CLIPは、言葉遣いや言い回しに過敏で機能させるために試行錯誤も必要 ・分類対...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(2/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(2/3)まとめ ・ゼロショット機能実現は単純に事前トレーニングタスクを規模拡大するだけで十分だった ・CLIPは視覚タスクの抱える課題であるデータが高コストである事などを軽減す...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(1/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(1/3)まとめ ・自然言語を教師に視覚的概念を効率的に学習するネットワークCLIPの紹介 ・CLIPはGPT-2やGPT-3の「ゼロショット」機能を視覚タスクで実現 ・個々のタ...
モデル

DALL·E:文章から画像を作成(3/3)

1.DALL·E:文章から画像を作成(3/3)まとめ ・DALL·EはGPT-3同様、説明と手がかりを与えるだけで追加学習なしで様々なタスクを実行可 ・視覚IQテストでは簡単な類推問題は解く事ができたが複雑な問題は解く事ができなかった ・地...
モデル

DALL·E:文章から画像を作成(2/3)

1.DALL·E:文章から画像を作成(2/3)まとめ ・DALL·Eでは、画像に対する視点や3Dスタイル、光学的歪みも制御できる ・「極端に拡大した視点」や「X線」スタイルで断面図や接写構図の画像も可能 ・入力文に指定されていない撮影状況の...
モデル

DALL·E:文章から画像を作成(1/3)

1.DALL·E:文章から画像を作成(1/3)まとめ ・自然言語で記述した様々な概念を参考にして画像を作成する事ができるDALL·EをOpenAIが発表 ・DALL·Eは、テキストと画像のペアを使用して訓練されたGPT-3の120億パラメー...
アプリケーション

MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(2/2)

1.MediaPipe Holistic:オンデバイスで顔、手、ポーズを同時に予測(2/2)まとめ ・MediaPipe Holisticは2017年モデルや中価格帯のスマホほぼリアルタイムで実行可能 ・モデルがほとんど独立しているため、速...