ビデオ会議時に手話で発言権を確保できるようにする(2/2)

１．ビデオ会議時に手話で発言権を確保できるようにする(2/2)まとめ

・手話検出モデル完成後、ビデオ会議アプリに手話による発言を検知させる必要があった
・手話検出モデルは手話を検出すると超音波を発声しアプリに疑似的な発音を検知させる
・通常どおり手話でコミュニケーションするユーザー体験調査で肯定的評価を得た

２．ビデオ会議アプリケーションで手話を検知できるようにする試み

以下、ai.googleblog.comより「Developing Real-Time, Automatic Sign Language Detection for Video Conferencing」の意訳です。元記事の投稿は2020年10月1日、Amit Moryossefさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Charles Deluvio on Unsplash

コンセプトの証明
手話検出モデルが機能するようになった後、それを使用してビデオ会議アプリケーションで発言中の話者を指定する方法を考案する必要がありました。様々なビデオ会議アプリケーションに接続可能で、ユーザーが手話を利用した際に「発言者」として設定できる、軽量でリアルタイムに動作する手話検出用のWebデモアプリを開発しました。このデモでは、TensorFlow.jsを使用してブラウザで実行可能なPoseNetの高速な人間の姿勢推定と手話検出モデルを活用し、リアルタイムで確実に動作できるようにしています。

手話検出モデルは、ユーザーが手話を行っていると判断すると、仮想オーディオケーブルを介して超音波オーディオトーンを渡します。これは、手話しているユーザーが「話している」かのように、ビデオ会議アプリケーションで検出できます。音声は20kHzで送信されますが、これは通常、人間の可聴範囲外です。ビデオ会議アプリケーションは通常、音声の「音量」を音声だけでなく会話として検出するため、アプリケーションを騙してユーザーが会話していると思い込ませます。

手話検出デモは、Webカメラのビデオを入力として受け取り、ユーザーが手話を使用していることを検出すると、仮想マイクを介して音声を送信します。

今すぐ実験的なデモを試すことができます！デフォルトでは、デモは手話検出器として機能します。トレーニングコードとモデル、およびWebデモのソースコードはGitHubで入手できます。

デモ
次のビデオでは、モデルの使用方法を示します。左上隅にある黄色のグラフに注目してください。これは、モデルの自信を反映しており、ユーザの挙動が手話であるとモデルが確信を持った時に高くなります。

ユーザーが手話を使用すると、グラフの値はほぼ100に上昇し、ユーザーが手話を停止すると、ゼロに低下します。このプロセスは、使用されるカメラの最大フレームレートである毎秒30フレームでリアルタイムに動作します。

https://youtu.be/at7ZyVEqtwM
イスラエル手話通訳者のMaayanGazuliが、手話検出のデモを実演

ユーザの感想
デモが実際にどの程度うまく機能するかをよりよく理解するために、参加者にビデオ会議中に実験的なデモを使用し、通常どおり手話でコミュニケーションするように依頼するユーザー体験調査を実施しました。

彼らはまた、スピーカーの切り替え動作をテストするために、お互いに手話で会話し、参加者に話しかけるように求められました。参加者は、手話が検出されて可聴可能な音声と同様に扱われ、デモが手話を正常に識別し、会議システムのオーディオメーターアイコンを変更して手話を使った発言者に焦点を合わせていることを肯定的に評価しました。

結論
私達はビデオ会議アプリケーションは誰でもアクセスできる必要があると信じており、この研究がこの方向への有意義な一歩になることを願っています。本研究ではモデルを活用して、手話利用者がビデオ会議をより便利に使用できるようにする方法を示しました。

謝辞
Amit Moryossef, Ioannis Tsochantaridis, Roee Aharoni, Sarah Ebling, Annette Rios, Srini Narayanan, George Sung, Jonathan Baccash, Aidan Bryant, Pavithra Ramasamy および Maayan Gazuli