dahara1

データセット

XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)

1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)まとめ ・36言語のほとんどで適切な地域から100枚の画像を収集する事に成功した ・注釈付け作業も画像の内容のみに基づいてキャプションを生成す...
データセット

XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)

1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)まとめ ・画像キャプショニングは画像に対する説明文を自動的に生成する機械学習タスク ・視覚情報と言語情報を同時に扱うためマルチモーダル研究の中...
画像生成

Stable Diffusionを微調整するために必要な条件の調査

1.Stable Diffusionを微調整するために必要な条件の調査まとめ ・Stable Diffusionを独自データで微調整してイラストを改良している人達がいる ・Stable Diffusionを微調整するにはどの程度のデータと予...
モデル

AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)

1.AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)まとめ ・AudioLMの学習データは生のオーディオのみで文書化されたデータは未使用 ・人間の評価者は人間の音声とAudioLMの生成音声の見分けがつ...
モデル

AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(1/2)

1.AudioLM:スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(1/2)まとめ ・オーディオ言語モデルは文章ではなくオーディオを使って学習した言語モデル ・GPT-3のような言語モデルが出来る事がオーディオを使ってできるモ...
画像生成

stable diffusionで生成した画像から動画を生成する

1.stable diffusionで生成した画像から動画を生成するまとめ ・FILMは2つの画像を補完する中間画像を生成して動画を生成する事が可能 ・stable diffusionはFrame-by-frame等のプロンプトでコマ送り画...
アプリケーション

FILM:2つの異なる写真の間を補完して動画を生成(2/2)

1.FILM:2つの異なる写真の間を補完して動画を生成(2/2)まとめ ・3つの損失関数を組み合わせて鮮明さと画像忠実度を大幅に向上させている ・FILMは画像間に100画素程度の大きな差があっても鮮明な画像を生成可能 ・小さな動きや中程度...
アプリケーション

FILM:2つの異なる写真の間を補完して動画を生成(1/2)

1.FILM:2つの異なる写真の間を補完して動画を生成(1/2)まとめ ・フレーム補間とは与えられた画像セットから中間画像を合成する事 ・写真間を補間することで臨場感のある魅力的な映像にしたり応用範囲が広い ・FILMは複製に近い写真から高...
学習手法

QuaRL:強化学習を量子化して高速化と環境負荷を低減(2/2)

1.QuaRL:強化学習を量子化して高速化と環境負荷を低減(2/2)まとめ ・ActorQでトレーニングの大幅な高速化と性能の維持が可能な事が確認された ・ポリシーの量子化で1.9倍から3.76倍まで炭素排出量の削減も確認された ・今後は他...
学習手法

QuaRL:強化学習を量子化して高速化と環境負荷を低減(1/2)

1.QuaRL:強化学習を量子化して高速化と環境負荷を低減(1/2)まとめ ・深層強化学習は逐次意思決定問題大きな進展を続けているが学習時間が長い ・計算負荷が高い事により温室効果ガスの総排出量も多くなってしまう ・量子化を適用する事で性能...
アプリケーション

Real-ESRGANとSwinIR:Stable Diffusionで生成した画像の解像度を上げて綺麗にする

1.Real-ESRGANとSwinIR:Stable Diffusionで生成した画像の解像度を上げて綺麗にするまとめ ・stable diffusionで生成した画像はノイズや細かい部分が崩れているケースがある ・修正した画像に更に美麗...
アプリケーション

TensorStore:ペタサイズの高次元データを柔軟に効率的に処理する(2/2)

1.TensorStore:ペタサイズの高次元データを柔軟に効率的に処理する(2/2)まとめ ・Apache BeamやDaskなどの並列コンピューティングライブラリと互換性を持つ ・大規模言語モデルではT5XやPathwaysなどのフレー...