UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)

１．UL2 20B：オープンソースとして公開された200億パラメータを持つ統一言語モデル(1/2)まとめ

・言語モデルは事前学習のやり方により得意なタスクと不得意タスクが分かれる
・事前学習用の効果的な統一フレームワークを作成があればより効果的である
・UL2はデータセットに依存せず言語モデルの性能を向上させる新パラダイム

２．UL2 20Bとは？

以下、ai.googleblog.comより「UL2 20B: An Open Source Unified Language Learner」の意訳です。元記事は2022年10月14日、 Yi TayさんとMostafa Dehghaniさんによる投稿です。

アイキャッチ画像はstable diffusionの生成で子供用のアルファベットのブロックで遊ぶトトロをイメージしたのですが、何故かトトロも子供化してしまった画像

自然言語をよく理解し生成するモデルを構築することは、機械学習(ML:Machine Learning)研究の壮大な目標の1つであり、日常的なアプリケーション用のスマートシステムの構築に直接的な影響を与えるものです。言語モデルの品質向上は、このような目標に向けて前進するための研究者にとって重要な目標です。

言語モデルを構築し訓練するための一般的なパラダイムは、与えられた先行語句に対して次の単語を予測するようにモデルを訓練する「自己回帰デコーダのみのアーキテクチャ(autoregressive decoder-only architectures、例えば、PaLMやGPT-3)」、または、マスクされた入力文章の一部を予測することを訓練目標とする「範囲破損ベースのエンコーダデコーダのアーキテクチャ(span corruption-based encoder-decoder architectures、例えば、T5やST-MoE)」を使用するものです。

T5のようなモデルは教師ありの微調整タスクではうまく動作しますが、少数の文脈から学習するタスクでは苦労します。一方、自己回帰型言語モデルは、オープンエンド生成(LaMDAによる対話生成など)やプロンプトベース学習(PaLMによる文脈内学習など)には適していますが、微調整タスクでは最適でない可能性があります。そのため、モデルを事前学習するための効果的な統一フレームワークを作成するチャンスが残されています。

論文「Unifying Language Learning Paradigm」では、データセットやセットアップによらず言語モデルの性能を向上させる、統一言語学習者(UL2:Unified Language Learner)と呼ばれる新しい言語事前学習パラダイムを紹介します。

UL2は、言語モデルを学習するための様々な目的関数を、与えられた入力から失われた一部分を回復するノイズ除去タスク(denoising task)として構成します。

UL2は事前学習時に、このような目的関数の様々なセットから、それぞれ異なる設定を持つ新しい混合ノイズ除去器(mixture-of-denoisers)を使用します。UL2フレームワークを用いて学習したモデルが、プロンプトベースの少数回学習や下流タスクのために調整されたモデルなど、様々な言語領域で良好な性能を示すことを実証します。

さらに、UL2が生成、言語理解、検索、長文理解、質問応答などのタスクに優れていることも示しています。最後に、私達は最高性能のUL2 200億パラメータモデルのチェックポイントを公開する事に興奮しています。

背景：言語モデリングの目的とアーキテクチャ

言語モデル学習の一般的な目的関数は、「入力と出力を対応付けるデータ変換の学習」という枠組みで考えることができます。モデルは様々な形式の入力を条件として、出力となるトークンを予測します。この目的のために、異なる目的は入力の異なる属性を利用します。

標準的なカジュアル言語モデリング(CausalLM)は、後続文章全体を予測する事を目的に学習します。そのため、出力するトークンだけを認識する事になります

プレフィックス言語モデリング(PrefixLM)は、「プレフィクス」と呼ばれるモデルの入力を形成することにより、このプロセスを変更します。「プレフィクス」は与えられたトークン化テキストから連続するk個のトークン範囲をランダムに選択する事で生成されます。

範囲破損(Span corruption)の目的は、入力文内の連続した範囲をマスクし、これらのマスクされた範囲を予測するためにモデルを訓練することです。

下の表は、最先端の言語モデルが学習する一般的な学習目的を、入力のさまざまな特性、つまり、モデルへの提示方法とともにリストアップしたものです。さらに、単一の入力からの教師信号を利用するモデルの能力、例えば、入力トークンが損失の計算にどれだけ貢献するかという観点から、各目的のサンプル効率で特徴付けます。

Objective Function	Inputs (Bi-directional)	Targets (Causal)	Input Properties	Example Efficiency
CausalLM	none	text	N/A	full seq_len
PrefixLM	text (up to position k)	text (after position k)	contiguous	seq_len – k
Span corruption	masked text	masked_tokens	non-contiguous, may be bi-directional	typically lower than others