EMNLP 2018におけるGoogleの存在感

１．EMNLP 2018におけるGoogleの存在感まとめ

・自然言語処理のトップカンファレンスであるEMNLPにおけるGoogleの貢献一覧
・論文と同時に４つの新しいデータセットが公開されている
・品詞のタグ付け、質問文への整形、文章の分割と置き換え、最小単位の編集などのデータセット

２．EMNLP 2018とCoNLL 2018

以下、ai.googleblog.comより「Google at EMNLP 2018」の意訳です。元記事の投稿はOctober 31, 2018で、Manaal FaruquiさんとEmily Pitlerさんの共同執筆です。

今週、ベルギーのブリュッセルでは、 Empirical Methods in Natural Language Processing(EMNLP 2018:自然言語処理の実証的方法)の年次会議が開催され、GoogleはEMNLPでも強い存在感を示しています。会議のさまざまな場面でサービスを提供している事に加え、Googleの研究者は、言語識別、セグメンテーション、セマンティック解析、質問回答など、さまざまなトピックに関する研究を発表しています。

また、Google社員は論文発表以外にも、共同開催されるComputational Natural Language Learning(CoNLL 2018:コンピューターによる自然言語学習)にも多言語解析タスクのために参加する予定です。

これらの関与に加えて、私たちはNLPの進歩を加速させる目的で、EMNLPで公開された論文とともに学術コミュニティにいくつかの新しいデータセットを公開しましたしています。

これらのリリースは、機械学習モデルが訓練時に使用したデータセットとテスト時に使用したデータセット間の不一致による現象を説明できるように設計されており、NLPシステムは入力データを「in the wild(野生のまま)」で扱う事が求められます。

私たちがリリースした全てのデータセットは、現実的で自然に発生するテキストが含まれており、2つの主なカテゴリに分かれています。

・充分に研究されたコアNLPタスクのための挑戦的なデータセット（品詞のタグ付け）
・新しい研究の方向性を奨励するためのデータセット(質問文への整形、文章の分割と置き換え、最小単位の編集)

１）Noun-Verb Ambiguity in POS Tagging Dataset
英語の品詞をタグ付けするソフトは、標準データセットに対する精度が高かったとしても、名詞と動詞のあいまい性に起因する重大なエラーを定期的に引き起こします。例えば「あなたが困難を感じている箇所をマークしなさい(Mark which area you want to distress)」では、最先端のタグ付けソフトであっても、Markを人名と間違えて動詞ではなく名詞として判断します。英単語における名詞と動詞のあいまいさを原因する自明でない例を注釈付きで30,000以上集めた新しいデータセットをリリースします。以前は区別が難しかったタグが、このデータセットの利用により57％から75％に精度が向上しました。

２）Query Wellformedness Dataset
検索エンジンに入力される検索語(クエリ)は、通常、自然言語の質問とほとんど類似していない「ワードサラダ(word-salad:単語は正しいが文法が破たん、もしくは文法としては正しいが意味が破たんしている文章)」スタイルのクエリです。例えば、「barack obama height(バラクオバマ身長)」のようになり、「What is the height of Barack Obama?(バラクオバマの身長は幾つですか?」とはなりません。

自然言語の質問をクエリから抽出することは、対話を含むいくつかのアプリケーションにとって重要です。私たちは、オープンソースParalexコーパスの25,100件のクエリに注釈をつけて公開し、自然言語の正しい形式にどれくらい近いかを評価しました。

３）WikiSplit: Split and Rephrase Dataset Extracted from Wikipedia Edits
Wikipediaが編集された際に文が分割された編集例を抽出したコーパスです。
1つの文が2つの文に分割されても、文の元の意味が保持されています。例えば、「Street Rodは、1989年にPCとCommodore 64でリリースされた2つのゲームのシリーズの最初のものです。」は、「Street Rodは2つのゲームのシリーズの最初のものです」と「1989年にPCとCommodore 64の向けにリリースされました。」と分割されます。リリースされたコーパスは百万のセンテンスが分割されたもので、600,000語以上の語彙を含んでいます。

４）WikiAtomicEdits: A Multilingual Corpus of Atomic Wikipedia Edits
Wikipediaの最小単位の編集がどのように行われたかを示す多言語コーパスです。
Wikipediaで人々がどのように言語を編集したかに関する情報は、言語そのものの構造を理解するために有用です。

1つの連続したテキストに対する挿入と削除のような最小単位の編集(atomic edits)に特に注目します。このような編集を8カ国語で約4300万回抽出したところ、それらが暗黙的に元の文章に貴重な情報を付与していることを示しています。

例えば、「1949年(in 1949)」の挿入は、「長い間病気を患った後に彼女はそこで亡くなった(She died there after a long illness)」という文に前置詞句を追加し、「長い間病気を患った後に彼女は1949年に亡くなった(She died there in 1949 after a long illness)」という文章になりました。

これらのデータセットは、Googleが最近発表したConceptual CaptionsやGAP Coreference Resolutionなどの他のデータセットと同様にGoogleの過去の貢献リストに加わります。

以下は、EMNLPとCoNLLでGoogleが携わっている役割とGoole社員の出版物の完全なリストです。私たちは特に、「Linguistically-Informed Self-Attention for Semantic Role Labeling」という論文がベストロングペーパー賞の2つのうち1つを受賞したことを嬉しく思います。この作業は、2017年のインターンのEmma Strubell、GoogleのDaniel Andor、David Weiss、そして、Google Faculty AdvisorのAndrew McCallumによって行われました。私たちは、これらの著者、および会議で自分の作品を発表している他のすべての研究者を祝福します。

Area Chairs Include:
Ming-Wei Chang, Marius Pasca, Slav Petrov, Emily Pitler, Meg Mitchell, Taro Watanabe

EMNLP Publications
・26論文

EMNLP Demos
・2デモ

CoNLL Shared Task
・2タスク

CoNLL Publication
・1論文

３．EMNLP 2018におけるGoogleの存在感関連リンク

１）ai.googleblog.com
Google at EMNLP 2018

１．EMNLP 2018におけるGoogleの存在感まとめ

２．EMNLP 2018とCoNLL 2018

３．EMNLP 2018におけるGoogleの存在感関連リンク

コメント