GPT-2：より良い言語モデルとそれが暗示する事(1/3)

１．GPT-2：より良い言語モデルとそれが暗示する事(1/3)まとめ

・アンデス山脈の辺境の谷間にかなり普通の英語を話すユニコーンの群れが生息している事が判明
・彼らの起源はまだはっきりしていないが人間が文明化する前にユニコーンと出会った時に生まれた可能性
・「南アメリカでは、そのような事件はかなり一般的」とGPT-2は語る。南アメリカの人は多分怒る。

２．GPT-2とは？

以下、blog.openai.comより「Better Language Models and Their Implications」の意訳です。元記事は2019年2月14日、ALEC RADFORDさん、JEFF WUさん、DARIO AMODEIさん、DANIELA AMODEIさん、JACK CLARKさん、MILES BRUNDAGEさんとILYA SUTSKEVERさんによる投稿です。数日前からAI関連ニュースとしてかなり話題になっているGPT-2を開発元であるOpenAIが紹介した記事です。GPT-2は人間が読んでもほぼ違和感を感じない自然な文章を作成する事が出来る人工知能と言う事で、これをこのままオープンソースとして公開してしまうとフェイクニュースが作り放題になってしまう懸念があり研究者向けに規模縮小版のみが公開されたのですが、例によってAI脅威報道で「イーロン・マスク(電気自動車のテスラや宇宙旅行のスペースXを率いている何かと話題に事欠かない人気者でOpenAIに資金提供している人)があまりに恐ろしいAIを作ったので封印された」的な記事にもなったりもしています。中編はこちら。

2020年2月追記：GPT-2が発表されてから一年しか経っていませんが、2020年2月現在、GPT-2より汎用性を高め、且つ八倍近い性能を持つであろうと推測されるT5というモデルがGoogleから登場しています。

2020年10月追記)GPT-2を画像に適用した研究「Image GPT：自然言語処理用の人工知能で画像を生成(1/3)」が発表されています。また、GPT-2の後継であるGPT-3も発表されています。

人間が読んでもほぼ違和感を感じない一貫した文章を生成する言語モデルの開発に成功しました。このモデルは大規模な教師なし学習によって訓練されており、言語モデルを対象とした様々な性能試験で最先端のスコアを更新しました。更に初歩的な読解、機械翻訳、質問応答、文章要約をする事ができます。しかも、これらの作業を行うために固有の学習は不要でした。

GPT-2(GPTの後継)と呼ばれる私たちのモデルは、40GBのインターネット上の文章を用いて学習し、次に現れる単語を予測するためだけに訓練されました。このテクノロジを悪用される懸念から、学習済みモデルは公開されていません。責任ある情報開示を行う実験として、私たちは代わりに技術論文と研究者のためのずっと小さい学習済みモデルを発表しています。

GPT-2は、15億のパラメータを持つ大規模なトランスフォーマーベースの言語モデルで、800万Webページを集約したデータセットでトレーニングされています。GPT-2の訓練目標は非常に単純です。ある文章内の前半部の単語が全て与えられた時に、次に来る単語を予測する事です。データセットの多様性により、この単純な目標を達成すると同時に、他の多様な文章関連作業も自然発生的にデモンストレーション可能になりました。GPT-2はGPTの規模を拡大したもので、10倍以上のパラメータを持ち、10倍以上のデータでトレーニングされています。

GPT-2は、幅広い機能を実現できますが、特にこれまでにない品質で文章を作成する事が出来ます。最初に入力文章を与えると、それに続けて違和感のない文章を作成し続ける事が出来るのです。更に、GPT-2は、特定の文章(Wikipedia、ニュース、書籍など)に限定して学習せずとも、特定の文章に限定して学習した他の言語モデルよりも優れています。質問応答、読解力、要約、翻訳などの言語作業においても、GPT-2は作業固有のトレーニングデータを使用せずに、生のテキストからこれらのタスクの学習を開始する事もできます。これらの言語作業のスコアは最先端技術には負けていますが、十分な(ラベルなし)データと計算能力があれば、これらの作業も教師なし学習から恩恵を受けることができる事を示唆しています。

サンプル文章
GPT-2は、与えられた任意の文章を入力として、それに続く文章を生成する事ができます。モデルはカメレオンのように、最初の入力テキストのスタイルと内容に適応した文章を作成する事ができます。これにより、ユーザーは自分が選択したトピックについて現実的で首尾一貫した文章を生成することができます。これは、以下のサンプル文章で確認できます。

人間が最初に入力した文章
衝撃的な発見です。研究者達はアンデス山脈の、これまで探求されていなかった辺境の谷間に生息するユニコーンの群れを発見しました。研究者達にとって更に衝撃だったのは、ユニコーン達が完璧な英語を話すという事実でした。

GPT-2がそれを受けて作成した文章（10回の試行の結果）
研究者はユニコーンが持つ独特の角にちなんで、その群れをオウィディウスのユニコーン(Ovid’s Unicorn)と命名しました。これらの4本の角を持つ、銀白色のユニコーンは、これまで科学的に知られていませんでした。

現在、ほぼ2世紀後に、この奇妙な現象を引き起こしたものの謎はついに解明されました。

La Paz大学の進化論的生物学者であるJorge Pérez博士と数人の仲間は、アンデス山脈を探索している時に他の動物や人間がいない小さな谷を見つけました。Pérezは、谷が2つの岩山と銀色の雪に囲まれ、自然の噴水のように見えることに気づきました。

Pérezと他の人々はそれから谷に歩みを進めました。「1つの岩山の頂上に達した時、水は青く見え、いくつかのクリスタルが頂上にありました」とPérezは言いました。

Pérezと彼の友人達はユニコーンの群れを見て驚きました。これらの生き物はほとんど動かずとも空から見る事ができました。 – 彼らの角に触れる事が出来るくらい彼らはとても近くにいました。

これらの奇妙な生き物を調べている間、科学者たちはその生き物がかなり普通の英語を話す事を発見しました。Pérez氏は、「たとえば、彼らは方言や弁証法のような共通の「言語」を持っていることがわかります」と述べました。

Pérez博士は、ユニコーンはアルゼンチンで生まれたかもしれないと信じています。アルゼンチンの動物は失われた人種の子孫であると信じられていました。彼らは南アメリカのそれらの地域に人類が到着する前からそこに住んでいました。

彼らの起源はまだはっきりしていませんが、人間が文明化するより前の時代に人間とユニコーンが出会ったときにおそらくこの生物が生み出されたと信じている人達もいます。Pérezによれば、「南アメリカでは、そのような事件はかなり一般的なようです。」

しかし、Pérezはまた、ユニコーンが本当に失われたエイリアン種族の子孫であるかどうかを確実に知る唯一の方法はDNAを通したものである可能性が高いと指摘しました。「しかし、彼らは英語でコミュニケーションをとることができるように思えます。これは進化の兆候、あるいは少なくとも社会組織の変化の兆候であると私は信じています」と科学者は言いました。

(GPT-2が作ったその他の文章例はこちら)

(GPT-2：より良い言語モデルとそれが暗示する事(2/3)に続きます)