1.Googleチャットでの会話要約(1/2)まとめ
・リモートワークでは毎日届く大量のチャットやドキュメントに追いつくのが大変
・ビジネス版のGoogleドキュメントには要約を自動生成する要約生成機能がある
・Google チャットでも未読のメッセージが存在する際に要約を生成するようにした
2.抽象要約学習用のデータセット
情報の過多は、今日、多くの組織や個人にとって重要な課題となっています。毎日受信箱に届くチャットメッセージやドキュメントに追いつくのは、圧倒されます。
これは、バーチャルワークの増加によって悪化し、多くのチームが仮想空間とオフィスの両方で働く人が混在するハイブリッドワーク環境に移行している現在も課題となっています。
例えば、Googleドキュメントでは、ユーザーの生産性を向上させ、多くの情報をよりよく管理するために、最近、自動生成される要約(summaries)を導入しました。
本日、Google チャットでチャット空間(Spaces)のメッセージに会話要約を導入することができたことを嬉しく思います。この要約が利用可能な場合、ユーザーが未読のメッセージが存在するチャット空間に入ると、自動的に生成された要約が記載されたカードが表示されます。
このカードには、チャット空間で議論されたさまざまなトピックの要約リストが含まれています。この機能は、チャットでの会話に有用で簡潔な要約を生成する最先端の抽象化要約モデルPegasusによって実現されており、現在、一部のプレミアムGoogle Workspaceビジネス顧客に提供されています。
会話の要約は、チャット空間内の会話のダイジェストを提供し、ユーザーは未読メッセージを素早く読んで追いつき、最も関連性の高いスレッドに移動する事ができます。
会話要約のモデル化
テキスト要約の目的は、文書、記事、会話など、さまざまなタイプのテキストに対して有用で簡潔な要約を提供することです。
良い要約は論点を簡潔にカバーし、流暢で文法的に正しいものです。要約の1つのアプローチは、テキストから重要な部分を抽出し、それらを要約に連結することです。(すなわち、抽出的要約(extractive summarization))。
もう一つのアプローチは、自然言語生成(NLG:Natural Language Generation)技術を使い、原文には必ずしも存在しない新規の単語やフレーズを使って要約することです。これは抽象的要約(abstractive summarization)と呼ばれ、一般に人が文章を要約する方法に近いと考えられています。しかし、抽象的要約の主な課題は、特に実世界での応用において、正確で文法的に正しい要約を生成することに苦労することがあることです。
ForumSumデータセット
抽象的要約のデータセットと研究の大部分は、ニュースや科学論文のような単一話者のテキスト文書に焦点を当てています。一方、チャットや多人数による会話など、他の種類のテキストに対する要約のデータセットは非常に限られています。
そこで、私達はForumSumを作成しました。ForumSumは、人間が書いた要約を含む、多様で高品質な会話要約のデータセットです。このデータセットに含まれる会話は、様々な公共のインターネットフォーラムから収集され、高品質で安全なコンテンツを確保するためにクリーンアップとフィルタリングが行われています。(詳細は論文に記載)
ForumSumデータセットの例
会話の各発言は改行され、著者名とメッセージテキストが含まれ、コロンで区切られています。注釈付け作業者には、会話の要約を1~3文程度で記述するよう指示が出されます。
この指示は、注釈付け作業者が質の高い要約を書けるよう、何度も繰り返されました。私たちは、1会話あたり平均6人以上の話者と10個の発話を持つ、6,000以上の会話の要約を収集しました。ForumSumは、チャットアプリケーションでよく遭遇する様々なトピック、話者数、発言数を持ち、会話要約問題のための質の高い学習データを提供します。
3.Googleチャットでの会話要約(1/2)関連リンク
1)ai.googleblog.com
Conversation Summaries in Google Chat
2)aclanthology.org
ForumSum: A Multi-Speaker Conversation Summarization Dataset