Google Duplex:電話予約をAIに委任できるシステム

  • 2018.05.14
  • AI
Google Duplex:電話予約をAIに委任できるシステム

1.Google Duplex:電話予約をAIに委任できるシステムまとめ

・ヘアサロンやレストランの電話予約を行ってくれるGoogle DuplexをGoogleが発表
・Googleアシスタントとスケジュール確定すればGoogle Duplexが自動で電話予約をしてくれる
・GoogleアシスタントへのGoogle Duplex搭載は近夏以降に試験開始予定

2.Google Duplexとは?

人間とコンピュータが自然に会話できるようになる事は昔からコンピュータ技術者の目標であった。近年のディープラーニングの進化により、コンピュータは会話の理解や自然な発声において、従来より大きく進化した。しかし、最新の技術を用いてもまだまだコンピュータとの会話はストレスが溜まる事が多い。特に、電話の自動音声応答システムは、簡単な単語やコマンドを認識させる事にも苦労する。これらのシステムは会話の流れを理解できないため、システムが使用者に合わせるのではなく使用者がシステムに合わせる事を強制する。

2018年5月に開催されたGoogleの開発者向けイベント、Google I/O 2018で、Googleは自然な会話を行う新しい技術であるGoogle Duplexを発表した。Google Duplexは電話を通じて「現実世界の仕事」を行う。つまり、ヘアサロンやレストランの予約や会合のスケジューリングなど電話を通じた特定の作業を、秘書に依頼するように任せてしまう事ができる。

Google Duplexがこれを実現できたのは、特定の作業に特化しているからである。つまり、ヘアサロンの予約など、特定の作業の会話パターンを深く学習したために実現できたのであり、一般的な幅広い会話全てに対応ができているわけではない。

Google Duplexは人間がストレスを感じないように自然な会話をする事が出来る。Google Duplexの会話が自然すぎるので電話対応するお店のスタッフが相手が人工知能である事に気づかない可能性がある。ユーザもお店もGoogle Duplexにはまだ慣れていないため、この技術の透明性を高めなければ、場合によってはお店側が人工知能による問い合わせに拒否感を感じる事もあるかもしれない。Googleはお店にGoogle Duplexからの電話の意図を理解して貰うために、今後数カ月にわたって適切なアプローチを試す予定である。

(1)自然な会話の実行の難しさ

人工知能が自然な会話を行うにはいくつかの課題がある。自然言語は理解しにくく、自然な振る舞いはモデル化するのが難しく、会話を途切れさせないために高速な処理が必要であり、適切なイントネーションで自然な発音をすることも困難である。

人々が会話する時、彼らはコンピュータに話す時よりも複雑な文章を用いる。人間はしばしば会話の途中で言いなおしをしたり、必要以上に冗長になったり、言葉を省略したり、文脈に頼る。

同じ文章で、多種多様な意図を表現するケースがある。例えば「営業時間は、火曜日から木曜日までは、11時から2時まで営業、その後4時から9時まで営業。そして、金土日は、いや、金土は11時から9時まで、日曜日1時から9時まで営業しています」など。

自然な会話では、人々は機械に向かって話す時より早く、不明瞭に話すため、音声認識は難しく、単語の誤認識率も高くなってしまう。この問題はバックグラウンドノイズや音質が変化する通話中には特に顕著になる。

より長い会話では同じ文章が文脈によって非常に異なる意味を持つ事もある。例えば、予約をする場合、「4で了解です(Ok for 4)」は、予約時刻を意味するケースもあれば、人数を意味する事も出来る。関連する文脈はかなり前の会話に基づくケースもあり、これは、単語認識率が悪化する問題とともに問題を複雑化する。

次に何を発言するべきかは、会話の目的と現在の状態が関連してくる。それに加え、自然な会話には人間同士でしか通用しない非常に精巧な暗黙のお約束が含まれる事がある。

詳細の確認
「来週の金曜日」「いつですか?」「来週の金曜日、18日です」

同期の確認
「もしもし、聞こえていますか?」

会話への割込
「番号は212の…」「ごめんなさい、最初からお願いします」

会話の一時停止
「ちょっと待ってください・・・失礼!」

「ちょっと」とは、1秒なのか2分なのかによっても意味合いが異なってくる。

(2)Duplexの実現方法

Google Duplexの自然な会話は、会話の理解、会話の相互作用、発音のタイミング、自然な発声、により実現出来た。Duplexの核心部分は、リカレントニューラルネットワーク(RNN)で実現されている。TensorFlow Extendedと匿名化された会話データをコーパス(言語資料)として用い、音声、会話履歴、会話のパラメーター(何を希望しているのか、現在の時刻など)を学習用データとして人工知能を学習させた。

Googleは、それぞれのタスク毎(つまりヘアサロン予約やレストラン予約を別々に)に会話の流れを学習させたが、タスク間でコーパスは共有した。最後にTensorFlow Extendedのハイパーパラメータ最適化を使用してモデルをさらに改善した。

(3)自然な発声

Googleは状況に応じてイントネーションをコントロールするために、連結TTS(text to speech)と合成TTS(TacotronとWaveNet)を利用した。

システムに「うーん」や「あー」などの発声をさせると、システムが処理中である事を自然に会話相手に伝える事ができる。これは人間が自分の考えをまとめているときに頻繁に行う事でもある。ユーザ調査では、これらの発声が会話に混ざる方がより自然な会話に聞こえる事がわかった。

会話の応答時間を会話相手の期待に合うようにすることも重要である。例えば、会話相手が「こんにちは」のような単純な言葉を言った時は、会話相手は瞬時の応答を期待しており、応答時間に対して敏感である。

Duplexは、瞬時の応答が必要である事を検出すると、高速だが信頼性の低いモデル(単純な音声認識など)を使って応答する。これによって、100ms未満の応答を実現できている。興味深い事に、非常に複雑な文章に返答する際は、応答を敢えて遅らせると会話をより自然に感じさせる事が出来る事もわかった。

(4)システムのオペレーション

Google Duplexは洗練された会話を実行する能力があり、人間の関与なしに大半の作業を自己完了できる。

Google Duplexには、自己完結できないタスク(例えば、異常に複雑な予定をスケジューリングする)がある事を認識する機能もあり、そのような場合は、作業を完了できる人間のオペレータに連絡する仕組みとなっている。

Google Duplexに新しい作業を学習させる際、Googleはリアルタイムの教師付き学習を行う。これは、インストラクターが学生の仕事を監督し、必要に応じてガイダンスを提供し、仕事の質をインストラクター自身が行ったのと同等レベルに高める事に似ている。

Duplexでは、経験豊富なオペレータがインストラクターの役割を果たす。新しい作業で実際に電話をかけながらDuplexを監視し、インストラクターは必要に応じてDuplexの動作にリアルタイムに介入する事が出来る。これは、Duplexが一定の品質レベルで動作できるようになるまで継続され、品質が確保された時点でインストラクターの監督は終了する。

(5)企業とユーザの利益

Duplexがサポートしている業界で、Web予約の仕組みがなく、電話予約に頼っている企業ではDuplexの恩恵を受ける事ができる。従業員を新たに訓練させたりシステムを新たに導入する事なく、Google アシスタント経由で予約を受け付ける事が出来る。Google アシスタントは顧客のスケジュール管理も行っているため、うっかり忘れによるドタキャンやノーショー(予約だけして当日来店しない)も減らす事ができる。

別の例だと、顧客は、連休中の営業時間などインターネットで入手できない情報を問い合わせるために電話する事が多い事がわかっている。Duplexは、店舗に電話をかけて営業時間を入手した後、Googleを用いて、その情報をオンラインで利用可能にする事が出来る。企業が同じ質問電話を受ける事を減らす事ができ、全ての人が営業時間情報にアクセスしやすくする。企業側はDuplexを活用するために何一つ新しい事をする必要はない。

ユーザにとっては、自分自身で電話をかけて予約を確定しなくとも、従来通りGoogleアシスタントとスケジュールの確認をするだけで、バックグラウンドでGoogle Duplexが電話予約を自動で完全に行ってくれる事がメリットである。

ユーザにとってのもう一つの利点は、スケジュールを立てたのがお店の営業時間外であってもGoogle Duplexが営業時間に改めて電話してくれる事である。また、聴覚に障害のある人や現地の言語を話す事ができない人でも電話を使う事ができるので、アクセシビリティの向上や言語障壁に対処するためにも役立つ。

近夏、GoogleアシスタントのDuplex対応のテストを開始し、ユーザーがレストランの予約やヘアサロン予約のスケジュール設定、電話での休暇の取得などを手助けできるようになる予定である。

人々が互いに会話するように自然な形でコンピュータと会話ができるようになる事は長い間期待されてきた。Google Duplexはこの方向へ最初の一歩を踏み出し、特定の業務では自然な会話での交流を実現できた。Googleは、これらの技術の進歩が、最終的にコンピュータとの日々の交流を有意義にし、使い勝手の向上に貢献することを願っている。

3.Google Duplex:電話予約をAIに委任できるシステム感想

デモの会話を聞いていると、お店の人は完全に人間と対話していると思い込んでますね。(会話は1:10~)

文中にもありますが、企業側からの反発を受けないように、電話中に自分がAIである事を通話相手に明かす事も検討されているようです。

日本では、「休暇の取得」が話題になりそうですね。今でも「新入社員が電話でなくてLINEやメールで病欠を連絡してきた!」なんて事の是非が話題になったりしますが、そのうち「新入社員がGoogle Duplexで有給申請してきた!」なんて事が話題になったりするのでしょうか。Google Duplexでは男性の声や女性の声など複数の声が選べるようなので、「女性の声で、申し訳なさそうに伝えてもらう」や「男性の声で事務的な感じで伝えてもらう」等が出来ると意外にスムーズなコミニュケーションに貢献するような気もしますね。

賛否両論はあるかと思うのですが、飲み会の幹事等をやると「お店の営業日の営業時間中に予約電話をする」事が中々タイミングが合わずに難しく感じる時は良くあるので、便利にそうに思えます。お店側がユーザを評価できるような仕組みを取り入れれば、ドタキャンやノーショー対策にもなると思うので、日本でも上手に運用されるようになると良いな、と思います。

4.Google Duplex:電話予約をAIに委任できるシステムまとめ

1)ai.googleblog.com
Google Duplex: An AI System for Accomplishing Real-World Tasks Over the Phone