T5:Text-To-Text Transfer Transformerと転移学習の探索(1/3)

T5:Text-To-Text Transfer Transformerと転移学習の探索(1/3)

1.T5:Text-To-Text Transfer Transformerと転移学習の探索(1/3)まとめ

・転移学習を用いたNLP関連技術の進歩が速すぎて何が効果的なのか評価することが困難になった
・最も効果的な転移学習手法を調べ、得た洞察を元にT5と呼ばれる新しいモデルを開発
・T5は多くのNLPベンチマークで最先端の結果を達成し、様々な下流タスクに微調整可能

2.T5とは?

以下、ai.googleblog.comより「Exploring Transfer Learning with T5: the Text-To-Text Transfer 」の意訳です。元記事の投稿は2020年2月24日、Adam RobertsさんとColin Raffelさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Aleksey Boev on Unsplash

過去数年にわたって、転移学習は自然言語処理()の分野で最先端の成果を生み出し、新しい波に繋がりました。

転移学習の有用性は、言語のモデリングや文中の欠落した単語を入力させる事などの自己教師型のタスクを使用して、ラベルなしテキストデータを使ってモデルを事前にトレーニングする事で得られます。ラベルなしテキストデータは世の中にあふれているので、大量のデータを使ってトレーニングする事ができます。

その後、少量のラベル付きデータセットでモデルを微調整し、多くの場合、ラベル付きデータのみでトレーニングするよりも(はるかに)パフォーマンスが向上します。

転移学習の最近の成功は、2018年にGPT、ULMFiT、ELMo、およびBERTによって火が付き、2019年にはXLNet、RoBERTa、ALBERTReformerMT-DNNなどの新しいモデルが多岐にわたって開発されました。この分野の進捗の速さにより、どの改善が最も意味があり、組み合わせた場合にどの程度効果的であるかを評価することが困難になりました。

論文「Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer」では、大規模な実証的調査を実施して、どの転移学習手法が最も効果的かを判断し、調査から得た洞察を元に、Text-to-Text Transfer Transformer(T5)と呼ばれる新しいモデルを開発しました。また、Colossal Clean Crawled Corpus(C4)と呼ばれる新しいオープンソースの事前トレーニングデータセットも公開しています。C4で事前にトレーニングされたT5モデルは、多くのNLPベンチマークで最先端の結果を達成すると同時に、さまざまな重要な下流タスクに合わせて微調整できる柔軟性を備えています。 結果を拡張して再現するために、使いやすいColab Notebookとともにコードと事前トレーニングモデルを公開しています。

Text-To-Text共有フレームワーク
T5では、全てのNLPタスクを、入力と出力が常にテキスト文字列であるtext-to-text統合フォーマットに再構成することを提案します。これは、出力がラベルまたは与えられた入力文の範囲のみであるBERTタイプのモデルとは対照的です。

text-to-textフレームワークにより、機械翻訳、文書要約、質問回答、分類タスク(感情分析など)を含むNLPタスクで同じモデル、損失関数、ハイパーパラメーターを使用する事ができます。

T5を回帰タスクに適用して、数値自体ではなく数値の文字列表現を予測するようにトレーニングすることもできます。


text-to-textフレームワークの図
全てのタスクは、テキストをモデルへの入力として使用します。図のモデルは、テキストを入力として受け取りテキストを生成するようにトレーニングされています。これにより、翻訳(緑色)、言語受容性(赤色)、文の類似性(黄色)、文書要約(青色)など、さまざまなタスクで同じモデル、損失関数、ハイパーパラメーターを使用できます。また、実証的調査に使用した標準試験用プラットフォームも提供します。

大規模な事前トレーニングデータセット(C4)
転移学習の重要な要素は、事前トレーニングに使用されるラベルのないデータセットです。事前トレーニングの量を拡大した効果を正確に測定するには、高品質で多様なだけでなく、大規模なデータセットが必要です。

既存の事前トレーニングデータセットはこれらの3つの基準を全て満たしてはいません。例えば、Wikipediaのテキストは高品質ですが、スタイルが統一されており、比較的小規模です。一方、インターネット上の文章を集めたCommon Crawlデータセットは膨大で非常に多様ですが、公平に言って品質はかなり低いです。

これらの要件を満たすために、Wikipediaより2桁規模が大きいCommon CrawlをクリーンにしたColossal Clean Crawled Corpus(C4)を開発しました。クリーニングプロセスには、重複排除、不完全な文の破棄、不快または攻撃的なコンテンツの削除が含まれます。

このフィルタリングにより、下流タスクでより良い結果が得られますが、データサイズが大きいため、事前トレーニング中に過学習することなくモデルサイズを大きくする事もできました。C4はTensorFlow Datasetsを介して利用できます。

3.T5:Text-To-Text Transfer Transformerと転移学習の探索(1/3)関連リンク

1)ai.googleblog.com
Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer

2)arxiv.org
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

3)github.com
google-research/text-to-text-transfer-transformer

4)www.tensorflow.org
TensorFlow リソース Datasets Catalog c4

5)colab.research.google.com
t5-trivia

6)t5-trivia.glitch.me
What does T5 know?