dahara1 | ページ 19

Stable Diffusion 1.5が公開されるも色々トラブる

１．Stable Diffusion 1.5が公開されるも色々トラブるまとめ・未公開版であったStable Diffusion1.5が従来と違うリポジトリで突然公開・漏洩かと思われたが元々プロジェクトに関わっていた別会社によるものだった...

2022.10.22

画像生成

１．Table Tennis：俊敏な動きを研究するためにロボットと卓球をする(2/2)まとめ・実データだけで学習する事が望ましい場合もあるが既存手法には問題があった・GoalsEyeでは行動クローニング技術を組み合わせて徐々に継続的に学...

2022.10.21

ロボット

１．Table Tennis：俊敏な動きを研究するためにロボットと卓球をする(1/2)まとめ・卓球は人間や他のロボットと対戦できるので強化学習の試験環境として有用・モデルがなければデータが収集できないがデータがなければモデルの学習は不可...

2022.10.20

ロボット

１．Dance Diffusion：Stable Diffusionの音楽版が出来るかもしれないまとめ・HarmonaiというプロジェクトからDance Diffusionという音楽生成モデルが公開・HarmonaiにはStable D...

2022.10.19

その他の分野

１．UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)まとめ・UL2は異なる事前学習から得られる能力と帰納的バイアスをモデルに付与可能・従来モデルは微調整タスクとプロンプトベースの1ショットタ...

2022.10.18

データセット

１．UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)まとめ・言語モデルは事前学習のやり方により得意なタスクと不得意タスクが分かれる・事前学習用の効果的な統一フレームワークを作成があればより効...

2022.10.17

データセット

１．Waifu Diffusionで自分の好きなキャラクターに好みの服を着てもらう事が可能まとめ・Waifu Diffusionではシンプルな指定で画像の詳細を指定する事が可能・Waifu DiffusionにDreamBoothを加え...

2022.10.16

画像生成

１．XM3600：人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)まとめ・36言語のほとんどで適切な地域から100枚の画像を収集する事に成功した・注釈付け作業も画像の内容のみに基づいてキャプションを生成す...

2022.10.15

データセット

１．XM3600：人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)まとめ・画像キャプショニングは画像に対する説明文を自動的に生成する機械学習タスク・視覚情報と言語情報を同時に扱うためマルチモーダル研究の中...

2022.10.14

データセット

１．Stable Diffusionを微調整するために必要な条件の調査まとめ・Stable Diffusionを独自データで微調整してイラストを改良している人達がいる・Stable Diffusionを微調整するにはどの程度のデータと予...

2022.10.13

画像生成

１．AudioLM：スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)まとめ・AudioLMの学習データは生のオーディオのみで文書化されたデータは未使用・人間の評価者は人間の音声とAudioLMの生成音声の見分けがつ...

2022.10.12

モデル

１．AudioLM：スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(1/2)まとめ・オーディオ言語モデルは文章ではなくオーディオを使って学習した言語モデル・GPT-3のような言語モデルが出来る事がオーディオを使ってできるモ...

2022.10.11

モデル