Googleドキュメントで要約を自動生成(2/2)

１．Googleドキュメントで要約を自動生成(2/2)まとめ

・知識蒸留でPegasusをTransformerとRNNのハイブリッドアーキテクチャに蒸留
・その結果オリジナルと同等の品質を保ちながら、待ち時間と必要メモリを大幅に改善
・課題はあるがGoogle Workspaceで提供される自動提案で文書の要約が容易になった

２．AIで要約を生成する際の課題

以下、ai.googleblog.comより「Auto-generated Summaries in Google Docs」の意訳です。元記事は2022年3月23日、Mohammad SalehさんとAnjuli Kannanさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Ben Mullins on Unsplash

最近の研究成果をGoogle ドキュメントに適用

データ

自己教師あり事前学習により、汎用的な言語理解・生成能力を持つMLモデルが得られますが、その後の微調整段階は、モデルが応用領域に適応するために重要です。私達は、典型的なユースケースに合致する人力で生成された要約を持つ文書資料を用いて、初期バージョンのモデルの微調整を行いました。

しかし、このコーパスには多くの種類の文書が含まれ、また要約の書き方も様々であったため、初期バージョンでは矛盾や大きなばらつきに悩まされました。例えば、学術論文の要約は一般的に長く詳細ですが、ビズネス文書におけるエグゼクティブサマリーは簡潔でパンチの効いたものです。このため、モデルは非常に多くの異なるタイプの文書と要約について学習したため、それらの間の関係を学習するのに苦労し、容易に混乱することになりました

幸いなことに、Pegasusの研究で得られた重要な発見のひとつは、事前学習フェーズが効果的であれば、微調整の段階でより少ない教師有データだけで済むということでした。いくつかの要約ベンチマークでは、Pegasusは1,000以上の教師ありデータで10000以上のデータを使ったTransformerベースのモデルと同等の性能を達成することができました。これは、量より質にこだわることができることを示唆しています。

私たちは、より一貫性があり、首尾一貫した要約の定義を表す学習サンプルを含むように、微調整データのクリーニングとフィルタリングを慎重に行いました。その結果、学習データの量を減らしたにもかかわらず、より質の高いモデルを得ることができました。データセット蒸留のような最近の他の研究と一致する重要な教訓は、より大きな、多様なデータセットよりも、より小さな、高品質のデータセットを持つ方が良いということでした。

サービス提供

高品質なモデルを学習させた後は、そのモデルを製品環境で実運用することが課題となります。エンコーダーデコーダーアーキテクチャーのTransformerバージョンは、抽象的要約のようなsequence-to-sequenceタスクのためのモデルを訓練する主要なアプローチですが、実際のアプリケーションで提供するには非効率的で非実用的であることがあります。

主な非効率性はTransformerデコーダからきています。自己回帰復号化によりトークンごとに出力要約を生成するため、デコーダは各ステップで以前に生成されたすべてのトークンに注目し、要約が長くなるとデコーディングプロセスは著しく遅くなります。RNNは、Transformerのように前のトークンに自己関与しないため、より効率的なデコードのためのアーキテクチャです。

私たちは、知識の蒸留(大きなモデルからより効率的な小さなモデルへ知識を移すプロセス)を用いて、PegasusモデルをTransformerエンコーダーとRNNデコーダーのハイブリッドアーキテクチャに蒸留しました。また、RNNデコーダーの層数を減らすことで、効率化を図りました。その結果、オリジナルモデルと同等の品質を保ちながら、待ち時間と必要メモリを大幅に改善することができました。さらに、待ち時間とユーザー体験を向上させるため、TPUを使用して要約モデルを提供しました。TPUは大幅なスピードアップを実現し、1台のマシンでより多くのリクエストを処理することができます。

継続的な課題と次のステップ

これまでの進展に興奮しつつも、引き続き取り組んでいる課題もいくつかあります。

文章の網羅性：文章の種類が非常に多岐に渡るため、微調整の段階で文章セットを開発することは困難でしたが、この困難は推論時にも当てはまります

ユーザーが作成する文書(会議メモ、レシピ、授業計画、履歴書など)の中には、要約に適さないものや要約が困難なものがあります。現在、私達のモデルは最も自信のある文書に対してのみ要約を提案していますが、モデルが改善されるにつれて、このセットの幅を広げ続けたいと考えています

要約の評価：抽象的な要約は、流暢で文法的に正しく、文書の本質を捉える必要があります。特定の文書には正しいと思われる要約が多数存在する可能性があり、読者によって好むものが異なるかもしれません。このため、自動的な評価指標だけで要約を評価することは難しく、ユーザーからのフィードバックや使用状況の統計が、要約を理解し品質を向上させ続けるために重要になります。

長い文書：長い文書は、モデルにとって要約するのが最も難しい文書の一つです。なぜなら、すべてのポイントを捉えて一つの要約に抽象化するのが難しく、また、学習や配信時のメモリ使用量が大幅に増加する可能性があるからです。しかし、長い文書は、文書作成者がこの退屈な作業を先取りするのに役立つので、モデルが自動的に要約するのに最も有用であると思われます。私たちは、最新のMLの進歩を適用して、この課題によりよく対処できることを期待しています。

まとめ

全体として、我々はNLUとNLGの最近の進歩を応用して、ユーザーの読み書きを引き続き支援できることを嬉しく思っています。Google Workspaceで提供される自動提案により、書き手が文書に要約を加えることが容易になり、読者が文書を理解し、より簡単にナビゲートできるようになることを願っています。

謝辞

この研究に協力してくれた Google 社の多くの人々に感謝します。
AJ Motika, Matt Pearson-Beck, Mia Chen, Mahdis Mahdieh, Halit Erdogan, Benjamin Lee, Ali Abdelhadi, Michelle Danoff, Vishnu Sivaji, Sneha Keshav, Aliya Baptista, Karishma Damani, DJ Lick, Yao Zhao, Peter Liu, Aurko Roy, Yonghui Wu, Shubhi Sareen, Andrew Dai, Mekhola Mukherjee, Yinan Wang, Mike Colagrosso, そして Behnoosh Hariri。

３．Googleドキュメントで要約を自動生成(2/2)関連リンク

１）ai.googleblog.com
Auto-generated Summaries in Google Docs