LaMDA：人間より機知に富んだ会話が可能な対話モデル(1/2)

１．LaMDA：人間より機知に富んだ会話が可能な対話モデル(1/2)まとめ

・LaMDAは最大1370億のパラメータを持つ対話に特化したニューラル言語モデル
・微調整を行い外部の知識ソースを活用する方法をモデルを教えて品質を向上した
・品質は分別(Sensibleness)、特定性(Specificity)、機知(Interestingness)の3次元で評価

２．LaMDAとは？

以下、ai.googleblog.comより「LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything」の意訳です。元記事は2022年1月21日、Heng-Tze ChengさんとRomal Thoppilanさんによる投稿です。

LaMDA自体は2021年5月に発表されています。後続研究で如何にして品質を向上させているかというお話です。

2022年6月追記)LaMDAが知性を得たという話題がニュースになっています。

アイキャッチ画像のクレジットはPhoto by Stefano Pollio on Unsplash

言語モデルの性能はかつてないほど向上しており、ある言語を別の言語に翻訳する、長い文書を簡潔に要約にまとめる、情報を求める質問に答えるなど、さまざまなタスクで役立っています。

その中でも、会話の題材を固定しないオープンドメインな対話モデル(open-domain dialog)は、おそらく最も難しいものの1つです。オープンドメインな対話ではモデルがあらゆるトピックについて会話できる必要があり、これが実現できれば幅広い応用が可能ですがと未解決の課題があります。

対話モデルは、人間が読んでも、良識があり、興味深く、文脈に即していると判断される回答を返す事が必要です。それに加え、責任あるAI(Responsible AI)としての振舞いを遵守するために、外部情報源の裏付けがない事を事実として返答する事を避ける必要があります。

本日は、私たちのLaMDA(Language Models for Dialog Applications)プロジェクトの最近の進歩についてご紹介します。

本投稿では、安全で、根拠があり、高品質な対話アプリケーションに向けて、私たちがどのように前進しているか、その概要を説明します。LaMDAは、最大1370億のモデルパラメータを持つ、対話に特化したTransformerベースのニューラル言語モデル群を微調整し、外部の知識ソースを活用する方法をモデルを教える事で構築されています。

目標と指標

対話モデルのトレーニングをガイドするためには、目的と測定基準を明確にすることが重要です。LaMDAは、「品質(Quality)」「安全性(Safety)」「根拠(Groundedness)」という3つの主要な目標を掲げており、それぞれを慎重に設計された指標で測定しています。

(1)品質

品質をSSI、すなわち分別(Sensibleness)、特定性(Specificity)、機知(Interestingness)の3つの次元に分解し、人間の評価者により評価します。

分別とは、モデルが対話中に文脈にそった意味のある応答を生成するかどうかを意味します。(例：常識を間違っていない、不合理な回答をしていない、以前の回答と矛盾していない)。

特定性とは、システムの回答が直前の対話の文脈に特定されている事、つまり、ほとんどの文脈に適用できるような一般的な回答(例えば、「OK」または「わかりません」)でない事で測定されます。

最後に、機知とは、モデルが洞察的、予想外、または機知に富んだ応答も生成し、したがってより良い対話を行う可能性が高いかどうかを測定します。

(2)安全性

私たちは、責任あるAIの開発・展開に関連する重要な問題への取り組みも進めています。私たちの安全性指標は、モデルが対話の中で示すべき振る舞いを捉えた、例示的な安全目標セットで構成されています。

これらの目的は、ユーザーに害を及ぼすリスクを生じさせる意図しない結果を回避し、不当な偏見を増幅しないように、モデルの出力を制約しようとするものです。

例えば、これらの目的は、暴力的またはグロテスクなコンテンツを含む、特定の集団に対する中傷や憎しみに満ちたステレオタイプを促進する、または冒涜を含む出力を生成しないようにモデルを訓練します。実用的な安全性指標の開発に向けた私たちの研究は、非常に初期の作業であり、この分野ではまだ大きな進展があります。

(3)根拠

現世代の言語モデルは、一見もっともらしく見えても、実は既知の外部ソースで確立された事実と矛盾している文を生成することが多いです。

このため、LaMDAでは根拠を研究しています。

本調査では、根拠とは「客体(認識・行為などの対象)に関する主張のうち、権威ある外部情報源によって支持されるものの割合」と定義しています。
つまり、客体に関する主張を含む全回答に占める権威ある外部情報源の割合です。

関連指標である情報量(Informativeness)は、客体に関する情報を含む回答のうち、既知の情報源によって裏付けられる回答の割合(全回答に占める割合)と定義されます。

したがって、実世界の情報とならない無造作な回答(例えば，「それはいい考えだ」)は、情報量に影響を与えますが、根拠には影響を与えません。

LaMDAが生成した回答を既知の情報源に基づかせることは、それ自体が事実の正確さを保証するものではありませんが、ユーザーまたは外部システムがその情報源の信頼性に基づいて回答の妥当性を判断できるようにします。

LaMDAの事前トレーニング

LaMDAの目的、評価指標を定義した上で、事前学習と微調整の2段階の学習について説明します。

事前学習では、まず1.56T語のデータセットを作成しました。これは、以前の対話モデルであるMeenaが使ったデータセットの40倍近い語数であり、公開されている対話データおよび他の公開Web文書から作成されたものです。

このデータセットを2.81T個のSentencePieceトークンにトークン化した後、GSPMDを用いて、前のトークンが与えられたときに文中の次のトークンを予測するモデルを事前学習しました。

事前学習されたLaMDAモデルは、プログラム合成、ゼロショット学習、スタイル転送、またBIG-benchワークショップなど、Google全体の自然言語処理の研究にも広く利用されています。

３．LaMDA：人間より機知に富んだ会話が可能な対話モデル(1/2)関連リンク

１）ai.googleblog.com
LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything

２）arxiv.org
LaMDA: Language Models for Dialog Applications