1.Snorkel MeTaLを用いた大規模マルチタスク学習(2/4)まとめ
・Snorkel MeTaLが最先端のスコアを達成するために辿った教師信号を具体的に解説
・伝統的な教師信号から開始し、次の段階は事前学習からの転移学習
・そして「もっと多くの教師となる信号が必要です(We need more signal. ?)」で以下次号
2.Snorkel MeTaLの教師となる信号
以下、dawn.cs.stanford.eduより「Massive Multi-Task Learning with Snorkel MeTaL: Bringing More Supervision to Bear」の意訳です。元記事は2019年3月22日、Braden Hancockさん, Clara McCreeryさん, Ines Chamiさん, Vincent Chenさん, Sen Wuさん, Jared Dunnmonさん, Paroma Varmaさん, Max Lamさん, そしてChris Réさんによる投稿です。以前、紹介したSnorkelの中で紹介されていたSnorkel MeTaLのお話です。
教師となる信号1.伝統的な教師
RTEデータセットには、ラベル付きサンプルが2500事例、トレーニングセットとして付属しています。このタスクの目的は、2番目の文が最初の文中に暗に含まれているかどうかを示すことです。これは、テキスト含意タスク(textual entailment task)または自然言語推論(NLI:natural language inference)と呼ばれることもあります。
Sentence 1 | Sentence 2 | Label |
Judie Vivian, chief executive at ProMedica, a medical service company that helps sustain the 2-years-old Vietnam Heart Institute in Ho Chi Minh City (formerly Saigon), said that so far about 1,500 children have received treatment. | The previous name of Ho Chi Minh City was Saigon. | Entailment |
Like the United States, U.N. officials are also dismayed that Aristide killed a conferencce called by Prime Minister Robert Malval in Port-au-Prince in hopes of bringing all the feuding parties together. | Aristide had Prime Minister Robert Malval murdered in Port-au-Prince. | Not Entailment |
Only a week after it had no comment on upping the atorage capacity of its Hotmail e-mail service, Microsoft early Thursday announced it was boosting the allowance to 250MBto follow similar moves by rivals such as Google, Yahoo, and Lycos. | Microsoft’s Hotmail has raised its storage capacity to 250MB. | Entailment |
Since 1987, however, Brazil has taken steps to dramatically reduce the destruction, including stepped-up enforcement and the elimination of tax incentives that led to larget-scale land clearing. | In the early 1990s Brazil began to take action to save the rainforest. | Not Entailment |
RTEデータセットの例文。 Labelは、センテンス1が真の場合にセンテンス2が真でなければならないかどうかを示しています。
まず、よく知られているNLPアーキテクチャと比較する事から始めます。このデータセットを標準のbiLSTMをトレーニングすると、57.4の精度スコアが得られます。 ELMoとアテンションレイヤを用いたスコアは、58.9でこれよりに少し上です。残念ながら、モデルアーキテクチャーをいかに素晴らしいものであったとしても、2500事例から学ぶ事ができる事には限界があります。
もっと多くの教師となる信号が必要です ?
教師となる信号2.転移学習
2018年は「NLPのImageNetの瞬間(訳注:NLP’s ImageNet moment:ImageNetは非常に質の高い画像データセットでこれが公開された後に画像関連のAIの研究が爆発的に進化しました)」と呼ばれています。言い換えれば、自然言語処理における転移学習が本格的に離陸した事で、さまざまなNLPタスクが大きく後押しされました。
自然言語処理で最もよく知られている2018年の勝利は、ULMFit、GPT、そしておそらく最も巨大なBERT、~33億ワードのコーパスと256のTPUを4日間つかってトレーニングされた、3億4千万を超えるパラメータを持つ24層の大規模なトランスネットワーク~、の開発によってもたらされました。
これらのモデルはそれぞれ、ある種の言語モデリングタスク(大まかに言えば、文脈から単語を予測する等)についてトレーニングされました。このようなタスクを使ってNLPモデルを事前トレーニングするとかなり堅牢になる事が証明されています。
文脈から単語や文を予測するためには、構文、文法、感情、相互参照の解決などの理解が必要になります。従って、結果として得られる特徴表現は一般に豊かで、さまざまなタスクに役立つ特徴表現となります。
事前にトレーニングされたBERTモジュールの上にタスク固有の線形レイヤ(タスクヘッド)を接続して微調整することで、検証スコアが17.6ポイントアップし、76.5ポイントに達することを確認しました。
RTEデータセットはまだ小さいですが、最初にはるかに大きい言語資料で事前トレーニングが行われているので、ネットワークはすでにRTEタスクヘッドが利用できる多くの有用な中間特徴表現を学習済みで、微調整プロセスのみが必要な作業となります。
直感的には、これにより特徴表現学習の負担の大部分がトレーニング前の段階に移り、タスクヘッドはそれらの学習済み中間特徴表現をその特定のタスクのためにどのように組み合わせるかについて更に専門化することができます。これでもまだ満足できません、もっと改良したいです。
もっと多くの教師となる信号が必要です ?
3.Snorkel MeTaLを用いた大規模マルチタスク学習(2/4)関連リンク
1)dawn.cs.stanford.edu
Massive Multi-Task Learning with Snorkel MeTaL: Bringing More Supervision to Bear
2)github.com
HazyResearch/metal
コメント