Looking to Listen：動画から個々の音声を切出す試み

１．Looking to Listen：動画から個々の音声を切出す試みまとめ

・Googleがカクテルパーティー効果を人工知能で実現
・複数の人が同時にしゃべっている動画から個別の音声を抜き出せた
・動画と音声の解析を連動させている事がTacotronとの違い

２．カクテルパーティー効果とは？

以下、ai.googleblog.comより「Looking to Listen: Audio-Visual Speech Separation」の意訳です。元記事の投稿は2018年4月11日、Inbar MosseriさんとOran Langさんによる投稿です。

人間は騒がしいパーティーの中でも自分を呼ぶ声を聞き取る事ができるが、この音声の選択的聴取の事をカクテルパーティー効果と呼ぶらしい。このカクテルパーティー効果を人工知能で実現する試みがLooking to Listenと言う名称でGoogleから発表された。

複数の人が同時にしゃべっている動画や騒音がひどい動画から個別の音声を抜き出す試みはつい先日、Tacotronの記事でも紹介したけれどもTacotronの記事はGoogle Brain and TTS Research teamsの投稿だった。今回は、似た機能なのだけどSoftware Engineers, Google Researchからの投稿で、Google内の違うチームの試みの模様。

ディープラーニングによる音声と動画解析は学術界でもホットな話題であるらしく今年４月にも２つの大学、BerkeleyとMITが似たコンセプトの論文を発表している。

Tacotronは純粋に音声ファイルのみを解析して個別の音声ソースを聞きわけたが、今回のLooking to Listenでは、
・動画情報から特定の人物の顔と口の動きを読み取る
・音声情報から口と連動している音声を抜き出す
と動画と音声の解析を連動させているとの事。

これにより、Googleの社長のスピーチ動画２つを１つに合成した動画も解析できたとの事。つまり、「同じ人物が違う事を同時にしゃべっている動画」を解析させる事が出来たとの事。
（社長スピーチ合成動画は怒られたのか既に削除されている）