language modeling

DALL·E 2:言葉による指示を理解してリアルな画像や芸術作品を作り出す人工知能

１．DALL·E 2:言葉による指示を理解してリアルな画像や芸術作品を作り出す人工知能まとめ・昨年発表されたDALL·E言語解釈能力と生成画像の品質を更に高めたDALL·E 2が発表された・DALL·Eの画像は少し稚拙な画像もあったがD...

2022.04.07

アプリケーション画像生成

１．BC-Z:ロボットは完全に新しい作業を指示に従って実行できるようになれるのか？(2/2)まとめ・模倣学習の拡張でロボットが未経験の新しいタスクに対応できるようになる可能性を示した・言語モデルが学習した概念同士の関連がロボットに柔軟性...

2022.02.12

ロボット学習手法

１．LaMDA：人間より機知に富んだ会話が可能な対話モデル(2/2)まとめ・品質指標は微調整の有無にかかわらず、モデルパラメータの数とともに一般に改善する・根拠性はモデルサイズが大きくなると向上するが外部の知識源を参照する事が可能・微...

2022.01.28

モデル

１．GoEmotions：きめ細かい感情分類を行うためのデータセット(2/2)まとめ・クラスタリングすると曖昧な感情はポジティブな感情に関係している事が判明・喜びと興奮、緊張と恐怖、悲しみと嘆き、苛立ちと怒りなども密接な相関関係・絵文...

2021.11.14

データセット

１．FLAN：指示調整により初見タスク実行能力を向上した言語モデル(2/2)まとめ・FLANはGPT-3よりサイズが小さいがゼロショット設定のGPT-3を上回った・一部のタスクでは小数ショット設定のGPT-3よりも優れた結果を出した・...

2021.10.11

モデル

１．FLAN：指示調整により初見タスク実行能力を向上した言語モデル(1/2)まとめ・モデルが意味のある文章を生成するためには現実世界の知識と物事を抽象化する能力が必要・モデルは規模拡大するとこれらの知識を自動的に取得するが条件は明確にわ...

2021.10.10

モデル

１．TimeDialとDisfl-QA：時の概念と流暢でない口語表現に対応するためのNLPデータセット(2/2)まとめ・非流暢さは本質的に音声現象であり、音声認識システムでテキスト出力時に最も影響がある・しかし、非流暢さの概念を含んでま...

2021.08.16

データセット

１．50億のパラメータを持つ人工知能はどこかぁ～に君ぃ～を隠しているからぁ～♪の続きを歌えるのか？まとめ・10億版に比べて50億版の表現力は明らかにあがっており違和感が減っている・特に英語の歌では人工知能によって補完された歌である事に気...

2021.02.10

入門／解説

１．RxR：多言語の案内指示に対応する能力を測るベンチマーク(2/2)まとめ・RxRには約1,000万語が含まれており既存のデータセットの約10倍の規模・RxRを使い現在の最良のモデルであっても人間の半分程度のスコアである事が判明・R...

2021.01.31

基礎理論

１．ToTTo：表から文を抽出する能力を測るためのデータセット(2/2)まとめ・最もパフォーマンスの高いモデルであっても約20%の確率で情報を幻覚化するように見える・最先端のモデルでも幻覚、数値的推論、および稀なトピックに苦労している事...

2021.01.28

データセット

１．Jukebox：歌声を含む生のオーディオを生成可能なニューラルネット(2/2)まとめ・Jukeboxは局所的には一貫性のある音楽を作成できるが曲全体で見るとまだ構造把握が甘い・ダウンサンプリングとアップサンプリングを行っているためノ...

2021.01.23

アプリケーションモデル

１．DALL·E：文章から画像を作成(1/3)まとめ・自然言語で記述した様々な概念を参考にして画像を作成する事ができるDALL·EをOpenAIが発表・DALL·Eは、テキストと画像のペアを使用して訓練されたGPT-3の120億パラメー...

2021.01.06

モデル