1.YouTuber向けのSmartReply機能が実装(1/2)まとめ
・Gmailで自動的に返信案を作ってくれるSmartReplyがYoutubeのコメント欄で利用可能に
・現在は英語とスペイン語のコメント用だが複数言語対応用の基盤は完成している
・また文字単位の言語モデリングにより絵文字を理解して返信案を作る事ができる
2.YouTubeクリエイター向けのSmartReplyとは?
以下、ai.googleblog.comより「SmartReply for YouTube Creators」の意訳です。元記事の投稿は2020年7月1日、Rami Al-Rfouさんによる投稿です。
SmartReplyはGmailなどでボタン一つで返信出来るように返信案を作ってくれる機能ですが、個人的には文面が素っ気なさすぎるように感じてほとんど使ってません。正直、今回のお話もそんなに興味を惹かれるタイトルではなかったのですが、なんと、個人的にはBERTがGoogle検索に採用された時と同等レベルのインパクトを感じた記事でした。
Transformerが「単語単位」ではなくて「文字単位」、もしくは「Byte単位」で文章を認識する事が出来るようになっていて、しかも、それが既に製品化されている、というお話です。
それが出来るようになる未来が来る事を感じていた人は少なくないと思うのですが、それが知らないうちに製品化されていた事にショックを受けました。単語単位ではなく文字 or Byte単位と言う事は、単語を構成していなくとも認識できると言う事ですから、まさに今回のメインターゲットであるYouTubeのコメント欄のように顔文字や絵文字を組み合わせて感情を表現しているような文章にも対応できるでしょうし、新しい造語やインターネットスラング、ギャル文字のような使われ方にも即座に対応出来るようになるでしょう。
言語の使われ方は時代と共に変化していくものですから、若者言葉の理解度テストなどで勝負したらAIの方が圧倒的に優勢です。そのうち「Ok Google。このメールの真意は?」「88%が営業、10%が社交辞令、2%が送信先間違いの結果と推測されます」などと異性から貰ったメールの脈の有り無しを判断して貰うような時代が来るのかもしれません。
アイキャッチ画像のクレジットはPhoto by Lidya Nada on Unsplash
SmartReplyがリリースされてから4年以上が経ちました。それ以来、Gmail版、Androidメッセージ版でより多くのユーザーに、そしてAndroid Wear経由でより多くの機器に採用されています。
開発者は、SmartReplyを使用してPlay Developer Console内のユーザレビューに返信可能で、MLKitおよびTFLite内で提供されるAPIを使用して独自バージョンをセットアップできるようになりました。
これらの新しいリリースの度に独自の課題があり、SmartReplyのモデリングとサービスを改良する必要がありました。
今回、YouTube向けに構築され、YouTube Studioに実装された、新しいSmartReplyを共有できるようになりました。これにより、クリエイターは視聴者とより簡単に交流できます。
このモデルは、計算効率の高い拡張self-attentionネットワークを通じてコメントと返信の特徴表現を学習します。
また、最初の複数言語対応且つ文字バイトベースのSmartReplyモデルとなります。
SmartReply for YouTubeは現在、英語とスペイン語のクリエイターが利用できます。今回のアプローチにより、SmartReply機能を将来、更に多くの言語に簡単に拡張できるようになります。
YouTuberは、自分の動画に対して大量のコメントを受け取っています。
更に、YouTuberと視聴者のコミュニティは、コメント、ディスカッション、ビデオの創造性が反映されており、多様です。
YouTubeのコメントは、長くなりがちで堅苦しい言葉遣いが大半を占める傾向があるメールと比較して、言語の切り替え、省略語、スラング、句読点の一貫性のない使用、絵文字の多用など、複雑なパターンを示します。
以下は、この課題を説明するコメントのサンプルです。
ディープな検索
SmartReply for Inboxの最初のリリースでは、単語毎にエンコードしたメールを再帰型ニューラルネットワークに与え、更に別の単語レベルの再帰型ニューラルネットワークを使い潜在的な返信をデコードしました。
このアプローチは表現力にもかかわらず、計算コストがかかりました。代わりに、事前定義された提案リストから最も適切な応答を検索するシステムを設計することで、同じ目的を達成できることがわかりました。
この検索システムは、メッセージとその提案を個別にエンコードしました。まず、テキストは前処理されて単語と短いフレーズが抽出されます。この前処理には、言語の識別、トークン化、および正規化が含まれますが、これらに限定されません。
次に、2つのニューラルネットワークが同時に個々に「メッセージ」と「提案」をエンコードします。
このタスク分解により、提案エンコーディングを事前に計算し、効率的な最大内積探索(MIPS:Maximum Inner Product Search、ベクトル演算を使ってデータベース内を効率的に検索する技法)データ構造を使用して提案セットを検索できます。
この高度な取得アプローチにより、SmartReplyをGmailに拡張できるようになり、これ以降の現在のYouTubeシステムを含むいくつかのSmartReplyシステムの基盤となっています。
単語を超えて
前述した従来のSmartReplyシステムは、限られた数の言語と狭いジャンルの文章向けに適切に調整された単語レベルの前処理に依存していました。
このようなシステムは、絵文字、ASCIIアート、複数言語混在などの異種コンテンツがコメントに含まれる可能性が高いYouTubeの場合、重大な課題に直面します。
これを踏まえ、バイト単位および文字単位の言語モデリングに関する最近の研究(Character-Level Language Modeling with Deeper Self-Attention)からインスピレーションを得て、前処理なしでテキストをエンコードすることにしました。
このアプローチは、ディープTransformerネットワークが文章を文字またはバイトの並びして入力されるだけで、単語ベースのモデルと同等の品質で単語やフレーズを一からモデリングできることを示す研究(Bridging the Gap for Tokenizer-Free Language Models)によってサポートされています。
3.YouTuber向けのSmartReply機能が実装(1/2)関連リンク
1)ai.googleblog.com
SmartReply for YouTube Creators
2)arxiv.org
Bridging the Gap for Tokenizer-Free Language Models
3)www.aaai.org
Character-Level Language Modeling with Deeper Self-Attention
コメント