Meena：どんな会話にも対応できるチャットボット(3/3)

１．Meena：どんな会話にも対応できるチャットボット(3/3)まとめ

・PerplexityがMeena開発中に作ったSSA値などの人間による評価と強い相関関係を示す事がわかった
・Perplexityは言語モデルの不確実性を測定する従来から使われてきた自動に測定できる評価基準
・今後もアルゴリズム、アーキテクチャ、データ、計算の改善を通じてperplexityを低下させる目標を継続

２．PerplexityとSSA

以下、ai.googleblog.comより「Towards a Conversational Agent that Can Chat About…Anything」の意訳です。元記事の投稿は2020年1月28日、Daniel AdiwardanaさんとThang Luongさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Max Hofstetter on Unsplash

自動評価基準：Perplexity
研究者達は、自動評価基準、すなわち人間が介在しなくても測定出来る評価基準を長い間求めてきました。人間による評価と相関する、より正確な自動評価基準があれば、わざわざクラウドソーシングで人を募らずとも評価が可能になるため、対話モデルをより迅速に開発できるようになります。しかし、現在まで、そのような自動評価基準を見つけることは困難でした。

驚くべきことに、私たちの研究では、ニューラルseq2seqモデルですぐに利用できる自動評価基準であるPerplexityが、SSA値などの人間による評価と強い相関関係を示すことを発見しました。

Perplexityは、言語モデルの不確実性を測定します。Perplexityが低いほど、モデルは次のトークン(文字、サブワード、または単語)の生成に自信があります。概念的には、Perplexityは、次のトークンを生成するときにモデルが選択しようとする選択の数を表します。

Meenaを開発中に、8つの異なるモデルで計測を行いました。レイヤー数、アテンションヘッド、合計トレーニングステップ、「Evolved Transformerと通常のTransformerのどちらを使用するか」「hard labelsとdistillationのいずれを使用するか」など、様々なハイパーパラメーターとアーキテクチャでの比較です。

以下の図に示すように、Perplexityが低いほど、モデルのSSAスコアは高くなり、強い相関(R2 = 0.93)が得られます。

SSAとPerplexityの関係
それぞれの青い点は、Meenaモデルの異なるバージョンです。SSAとPerplexityの間の強い相関関係を示す回帰直線が点で示されています。点線は、人間、他のボット、Meena(基本モデル)、エンドツーエンドのトレーニングモデル、フィルタリングメカニズムとチューニング済みデコーダを備えたMeena完全体のSSAパフォーマンスです。

Meena(基本モデル)と呼ばれる、エンドツーエンドのトレーニング済みMeenaモデルは、10.2のPerplexity(小さい方が良い値です)を達成し、SSAスコアは72%になります。他のチャットボットによって達成されたSSAスコアと比較して、72％のSSAスコアは、平均的な人間によって達成された86%のSSAスコアに肉薄しています。フィルタリングメカニズムとチューニング済みデコーダを備えたMeena完全体は、SSAスコアを79%に更に向上させます。

今後の研究と課題
以前に提唱したように、アルゴリズム、アーキテクチャ、データ、および計算の改善を通じて、ニューラル会話モデルのperplexityを低下させるいう目標を継続します。

私たちは本研究では分別度(sensibleness)と具体度(specificity)だけに焦点を合わせましたが、個性(personality)や事実性(factuality)などの他の属性も後続の研究で検討する価値があります。また、モデルの誤用の危険性と偏見に取り組む事は私達にとって重要な重点分野であり、これに関連する問題を考慮したため、現在、外部に研究デモを公開していません。

ただし、モデルの公開に関するリスクと利点を現在評価しており、この分野での研究を促進するために、今後数か月で利用できるようにするかもしれません。

謝辞
このプロジェクトには多数のメンバーが参加しました。
David So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Luu。また、リーダーシップをサポートしてくれたQuoc Le、Samy Bengio、Christine Robsonに感謝します。
また、論文の草案についてフィードバックをくれた人々に感謝します。
Anna Goldie, Abigail See, YizheZhang, Lauren Kunze, Steve Worswick, Jianfeng Gao, Daphne Ippolito, Scott Roy, Ilya Sutskever, Tatsu Hashimoto, Dan Jurafsky, Dilek Hakkani-tur, Noam Shazeer, Gabriel Bender, Prajit Ramachandran, Rami Al-Rfou, Michael Fink, Mingxing Tan, Maarten Bosma, そして Adams Yu。
また、人間同士の会話や様々なチャットボットとの会話の収集を手伝ってくれた多くのボランティアに感謝します。最後に、プロジェクトを支援してくださったNoam Shazeer、Rami Al-Rfou、Khoa Vo、Trieu H. Trinh、Ni Yan、Kyu Jin Hwang、およびGoogle Brainチームの皆さんに感謝します。