ビデオ会議時に手話で発言権を確保できるようにする(1/2)

１．ビデオ会議時に手話で発言権を確保できるようにする(1/2)まとめ

・ビデオ会議で手話を検知するのは全カメラのビデオ入力を分類対象とする必要があり困難
・以前の試みで通話品質への影響を最小限に抑えるために軽量モデルが重要な事が判明
・そのためPoseNetでHD画像を目、鼻、肩、手などのユーザーの体に存在する特徴に集約

２．ビデオ会議アプリケーションで手話を検知できるようにする試み

以下、ai.googleblog.comより「Developing Real-Time, Automatic Sign Language Detection for Video Conferencing」の意訳です。元記事の投稿は2020年10月1日、Amit Moryossefさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Charles Deluvio on Unsplash

ビデオ会議は、手話を使用するユーザーを含む全ての人が利用可能な必要があります。

ただし、ほとんどのビデオ会議アプリケーションは、声に出して発言した人にウィンドウのフォーカスを移行するため、手話利用者が簡単かつ効果的にコミュニケーションできるように「発言権を取得する」事は困難です。

アプリケーションは全カメラ分のビデオを入力として使用して分類タスクを実行する必要があり、タスクの計算量が多くなるため、ビデオ会議でリアルタイムで手話検出する事は困難です。
これらの課題を一因として、手話検出に関する研究は限られています。

SLRTP2020で発表され、ECCV2020でデモされた「Real-Time Sign Language Detection using Human Pose Estimation」では、リアルタイムで手話を検出するモデルを提示しました。

更にビデオ会議システムに、手話で発言している人を発言者として識別するメカニズムを提供し、どのように使用できるかをデモンストレーションを行いました。

イスラエルの手話通訳者であるMaayan Gazuliが、手話検出システムのデモを行いました。

私達のモデル
様々なビデオ会議アプリケーションでリアルタイムで作業できるような解決先を実現するには、複雑な設定が不要ですぐに使える簡単で軽量なモデルを設計する必要がありました。

以前の試みでは、クライアント側でビデオ会議アプリケーションのモデルを統合しようとしました。その結果、通話品質への影響を最小限に抑えるために、より少ないCPUサイクルを消費する軽量モデルが重要性であると言う事が示されました。

そのため、入力データの次元数を減らし、全てのフレームで分類を実行するために、モデルがビデオから必要とする情報を分離しました。

手話にはユーザーの体と手が関係するため、まずポーズ推定モデルであるPoseNetを実行します。

これにより、HD画像全体が、目、鼻、肩、手などのユーザーの体に存在する特徴をまとめたセットに入力データが大幅に削減されます。これらの特徴を使用して、フレーム間の物体の動き(optical flow)を計算し、定量化します。

この手法をテストするために、ドイツ手話コーパス(DGS)を使用しました。これには、手話する人々を録画した長時間ビデオが含まれ、手話が行われているフレームを示す注釈が含まれています。

単純な比較対象として、物体の動きを使用して人が手話する時期を予測する線形回帰モデルをトレーニングしました。この比較対象モデルは、フレームあたりわずか3μs(0.000003秒)の処理時間で、約80%の精度を達成しました。線形モデルに直前の50フレーム分の物体の動きを含めて直前の状況把握が出来るようにする事により、83.4%を達成する事ができました。

直前の状況把握を一般化するために、LSTMアーキテクチャを使用しました。これには、直前のタイムステップのメモリが含まれていますが、ルックバックは含まれていません。単層LSTMとそれに続く線形レイヤーを使用すると、モデルはフレームあたり3.5ms(0.0035秒)の処理時間で最大91.5%の精度を達成しました。