人工知能/機械学習

分類精度が高すぎるモデルは知覚的類似度を予測する用途に不向き(1/2)

１．分類精度が高すぎるモデルは知覚的類似度を予測する用途に不向き(1/2)まとめ・画素の違いから画像の類似性を推定する方法は人の知覚とあまり一致しない・画像分類器内の中間特徴表現を使うと知覚的類似性に近い分類が出来る・どのような画像分...

2022.10.23

基礎理論

１．UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(2/2)まとめ・UL2は異なる事前学習から得られる能力と帰納的バイアスをモデルに付与可能・従来モデルは微調整タスクとプロンプトベースの1ショットタ...

2022.10.18

データセット

１．UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)まとめ・言語モデルは事前学習のやり方により得意なタスクと不得意タスクが分かれる・事前学習用の効果的な統一フレームワークを作成があればより効...

2022.10.17

データセット

１．XM3600：人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)まとめ・36言語のほとんどで適切な地域から100枚の画像を収集する事に成功した・注釈付け作業も画像の内容のみに基づいてキャプションを生成す...

2022.10.15

データセット

１．XM3600：人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)まとめ・画像キャプショニングは画像に対する説明文を自動的に生成する機械学習タスク・視覚情報と言語情報を同時に扱うためマルチモーダル研究の中...

2022.10.14

データセット

１．AudioLM：スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(2/2)まとめ・AudioLMの学習データは生のオーディオのみで文書化されたデータは未使用・人間の評価者は人間の音声とAudioLMの生成音声の見分けがつ...

2022.10.12

モデル

１．AudioLM：スピーチの続きもピアノの続きも生成可能なオーディオ言語モデル(1/2)まとめ・オーディオ言語モデルは文章ではなくオーディオを使って学習した言語モデル・GPT-3のような言語モデルが出来る事がオーディオを使ってできるモ...

2022.10.11

モデル

１．QuaRL:強化学習を量子化して高速化と環境負荷を低減(2/2)まとめ・ActorQでトレーニングの大幅な高速化と性能の維持が可能な事が確認された・ポリシーの量子化で1.9倍から3.76倍まで炭素排出量の削減も確認された・今後は他...

2022.10.07

学習手法

１．QuaRL:強化学習を量子化して高速化と環境負荷を低減(1/2)まとめ・深層強化学習は逐次意思決定問題大きな進展を続けているが学習時間が長い・計算負荷が高い事により温室効果ガスの総排出量も多くなってしまう・量子化を適用する事で性能...

2022.10.06

学習手法

１．TensorStore：ペタサイズの高次元データを柔軟に効率的に処理する(1/2)まとめ・最近の機械学習はペタ規模の巨大多次元データセットを操作する事も多い・データは順番に読まれるわけではなく複数マシンに分散される事もある・Ten...

2022.10.03

基礎理論

１．LFNRとGPNR：反射するCDを含む場面の視線合成が可能な新手法(2/2)まとめ・LFNRの制限の1つは狭い範囲から情報を取得しているため汎化できない事・GPNRでは同じ深度のポイント間で情報を交換するtransformerを追加...

2022.10.01

モデル基礎理論

１．LFNRとGPNR：反射するCDを含む場面の視線合成が可能な新手法(1/2)まとめ・ある風景の複数の写真から新しい視点を合成する視点合成タスクは長年の課題・LFNRではCDの光彩のような視点に依存する効果を再現する課題に取り組んだ ...

2022.09.30

モデル基礎理論