GPT-2が自動生成したその他の文章(1/3)

  • 2019.03.01
  • AI
GPT-2が自動生成したその他の文章(1/3)

1.GPT-2が自動生成したその他の文章(1/3)まとめ

・GPT-2が出力したユニコーン以外の文章の紹介
・プレスリリース、ニュース、芸能ニュース、の3種類
・部署名等は実在の名称を入れてくるので流し読みしていると読めてしまう

2.GPT-2の作ったフェイクニュース

GPT-2が作成した文章として発表されたのは8例あります。それぞれが異なった用途に使われる文章であり、多様な文章に対応できる事がGPT-2が脅威と見なされる理由の1つでもあります。ただ、一部のネイティブがGPT-2の書いた文章を読んで不自然と指摘していた部分を、不自然さが感じられるように日本語に訳すのは非常に困難(逆に言えば、かなりの人はネイティブであっても不自然さをほとんど感じないようです)なのでいつものように意訳と考えてください。

1.新製品のニュースリリース

人間が最初に入力した文章
真に迫った文章を生成するGPT-2と呼ばれる大きな言語モデルを訓練しました。GPT-2はまた、機械翻訳、質問応答、読解力、要約などの言語関係作業をゼロショットで一般化可能です。これらの作業は通常、これらの作業専用に設計された学習データセットとモデルを使用する事で可能になります。

言語モデリングを行う際の典型的なアプローチは、次のようなタスクを学習させることです:あるテキスト内の前の単語を全て与えられて、次に出現する単語を予測させる。

昨年、OpenAIのGenerative Pre-trained Transformer(GPT)は、大量のデータを学習した言語モデルを特定のタスクに合わせて微調整して、高性能を達成できることを示しました。

GPT-2は、インターネットから派生したより多様な文章データセットで訓練したはるかに大きな言語モデルが、様々なNLPタスクをタスク固有の訓練データの代わりに生のテキストから可能である事を示しました。これらのシステムはまた、生成されたテキストのリアリズムと一貫性において多大な質的飛躍を示しました。

GPT-2がそれを受けて作成した文章(試行回数は一回)
ここでは、Generative Pre-trained Transformerの最新の進捗状況を確認できます。

図1:いくつかのテキストに基づいた、事前に生成されたトランスフォーマーの生成的トレーニング。

私たちは現在、私たちの言語モデルで翻訳と機械翻訳のためのデータセットのコレクションを準備しています。 The New York Timesが提供する多数のテキストサンプルのうちの1つを使用します。

このプロジェクトは、タスク固有のトレーニングデータなしで大規模なNLPシステムを開発する方向への最初のステップであると私たちは信じます。 つまり、テキストを生成するための明示的な規則がない、生成型の機械語システムを開発しています。

私たちはコンピュータ科学者、言語学者、そして機械学習研究者の間の将来の共同研究を望んでいます。

「図1:いくつかのテキストに基づいた、事前に生成されたトランスフォーマーの生成的トレーニング」の部分はGPT-2が出力したままで、GPT-2自体には図を作る能力はないので原文にも図はないです。

2.盗難事件を伝えるニュース

人間が最初に入力した文章
規制された核物質を運搬する列車が本日シンシナティで盗まれました。その所在は不明です。

GPT-2がそれを受けて作成した文章(試行回数は一回)
事件はコヴィントン駅からアッシュランド駅までを走るダウンタウンの沿線で発生しました。

オハイオ州の報道機関への電子メールで、米国エネルギー省は盗賊を見つけるために連邦鉄道局と協力していると述べました。「この核物質の盗難は、公衆衛生および環境衛生、私たちの労働力、そして私たちの国の経済に重大な悪影響を及ぼすでしょう」と、米国エネルギー長官のトム・ヒックスは声明の中で述べています。 「私たちの最優先事項は、盗難を防止し、二度と起こらないようにすることです。」

学部関係者からのニュースリリースによると、盗まれた物質は、シンシナティ大学のResearch Triangle Park原子力研究所から取りだされたものです。

原子力規制委員会は直ちに情報を公表しませんでした。

このリリースによれば、米国エネルギー省の核物質安全保障措置局がそのチームの調査を先導していると言います。「人々の安全、環境、そして国の核備蓄は、私たちの最優先事項です」とヒックス氏は言います。 「私たちはこれを理解し、言い訳をしません」

フェイクニュースなのですが、イヤラシイのが、核物質安全保障措置局(Office of Nuclear Material Safety and Security)って実在する部署名なんですよね。

3.芸能ニュース

人間が最初に入力した文章
マイリー・サイラスは本日ハリウッド大通りにあるアバクロンビー&フィッチで万引きをしました。

GPT-2がそれを受けて作成した文章(試行回数はニ回)

19歳の歌手は、警備員によって店の外に連れて行かれている所をカメラに撮られました。歌手は、前面に「ブラード ラインズ」、背面に「ファッション ポリス」とラベルが付いた黒いパーカーを着ていました。

ビデオを見るためには下にスクロールしてください。

万引き:マイリー・サイラスは本日ハリウッド大通りでアバクロンビー&フィッチから万引きしました(写真)

歌手は、前面に「ブラード ラインズ」、背面に「ファッション ポリス」とラベルが付いた黒いパーカーを着ていました。

歌手はまた、黒い縁のメガネ、黒いジャケット、黒いジーンズと黒いサンダルを身に着けていました。彼女は黒と白の縞模様の手袋と小さな黒いバッグを持っていました。

こちらも「ビデオを見るためには下にスクロールしてください(Scroll down for video)」は、GPT-2が出力したままです。内容の薄い文章ですが、実際、芸能関係の文章ってこんな感じなのでとても良く特徴を捉えていると感じます。「アバクロンビー&フィッチ」も本当にあるお店です。