人々の表情は国や地域が変わっても場面によって共通なのか?(2/2)

AI

1.人々の表情は国や地域が変わっても場面によって共通なのか?(2/2)まとめ

・ビデオ内の場面を自動的に認識させるために2種のDNNを使用した
・表情と場面の相関関係は文化間の違いに関わらず7割程度が同じだった
・逆に言えば地域間で最大30%違いがあり遠い世界の地域交流時は留意が必要

2.国や地域の違いに関わらず共通する表情

以下、ai.googleblog.comより「Understanding Contextual Facial Expressions Across the Globe」の意訳です。元記事の投稿は2021年5月24日、Alan CowenさんとGautam Prasadさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Spenser Sembrat on Unsplash

ビデオ内の場面を特定
何百万もの動画の表情と場面を理解するために、きめ細かく内容を捕捉してビデオ内の場面を自動的に認識する事が可能なDNNを使用しました。

最初のDNNは、「実際のビジュアルコンテンツ」と「ビデオに関連付けられたテキスト特徴(タイトルと説明文)」の組み合わせをモデル化したビデオトピックモデルです。

更に、視覚情報なしでテキスト特徴のみに依存するテキストトピックモデルのDNNも使用しました。

これらのモデルは、動画を説明する何千ものラベルを予測します。私達の実験では、これらのモデルは、分析に使用したデータの多様性を示す何百もの固有の場面(結婚式、スポーツイベント、花火など)を特定することができました。

世界中の表情と場面間の共分散
最初の実験では、携帯電話で撮影された300万本の公開ビデオを分析しました。自然な表情が含まれている可能性が高いため、スマートフォンからアップロードされた動画に重点を置くことにしました。

ビデオ内で発生した表情を、ビデオトピックモデルに付与させた場面注釈で関連付けました。16種類の表情は、世界中で一貫している日常の社会的場面と明確に関連していることがわかりました。

例えば、人々が娯楽に関連付ける表情は、悪ふざけのある動画でより頻繁に発生しました。その他にも花火のビデオ内で人々が畏敬の念を抱く表情、スポーツイベントでの勝ち誇る得意げな表情などです。

これらの結果は、個人、文化、または社会に固有のものなどの他の要因と比較して、顔の表情が心理的に関連する場面で相対的に重要である事についての議論に強い影響を及ぼします。

2番目の実験では、300万本のビデオの別のセットを分析しましたが、今回はテキストトピックモデルを使って場面に注釈を付けました。結果は、最初の実験での発見が、ビデオトピックモデルの注釈に対するビデオの顔の表情の微妙な影響によって引き起こされたのではないことを確認しました。

言い換えると、この実験を使用して、最初の実験からの結論を検証しました。これは、ビデオトピックモデルがコンテンツに付与するラベルを計算するときに顔の表情を暗黙的に考慮してラベル付けをしている可能性があるためです。


各地域内のすべての動画で、表情と場面の注釈を関連付けました。各表情には、12の世界の地域で保持されている様々な場面との特定の関連付けがあることがわかりました。例えば、上図では、左から3列目で赤色が濃い列が人々が畏敬(Awe)の念を抱いた際の表情の多さを表しており、他の場面よりも上部の花火、ペット、おもちゃが関わる場面でより頻繁に見られたことがわかります。

どちらの実験でも、表情と場面の相関関係は文化間の違いに関わらず保持されているように見えました。表情と場面間の関連付けが、調査した12の異なる世界の地域全体でどれほど類似しているかを正確に定量化するために、地域の各ペア間の2次相関を計算しました。これらの相関関係は、各地域のさまざまな表情と場面間の関係を識別し、それらを他の地域と比較しています。各地域で見つかった場面と表情の関連付けの70%が、現代の世界全体で共有されていることがわかりました。

最後に、私達が測定した16種類の表情のうち、世界中で維持されている様々な場面と明確に関連しているものがいくつあるかを調べました。そのために、正準相関分析と呼ばれる方法を適用しました。これにより、16の顔の表情すべてが、世界中で維持されている場面と明確な関連性があることが示されました。

結論
文化を超えて日常生活の中で表情が発生する状況を、これまでにない規模で検証することができました。機械学習により、世界中の何百万もの動画を分析し、文化を超えて同様の状況で顔の表情がある程度維持されているという仮説を裏付ける証拠を発見することができました。

私達の研究結果はまた、文化の違いの余地を残しています。顔の表情と場面間の相関関係は世界中で70%一貫していましたが、それらは地域間で最大30%変動していました。隣接する地域間では、一般に、遠い世界の地域よりも顔の表情と文脈の間に類似した関連性があり、人間の文化の地理的な広がりも顔の表情の意味に役割を果たす可能性があることを示しています。

本研究は、機械学習を使用して自分自身をよりよく理解し、文化間の共通のコミュニケーション要素を特定できることを示しています。DNNなどのツールは、科学的発見に役立つ膨大な量の多様なデータを提供する機会を提供し、統計的結論の信頼性を高めます。私達の仕事が、責任ある方法で機械学習のツールを使用するためのひな型を提供し、他の科学分野でより革新的な研究を促進することを願っています。

謝辞
カリフォルニア大学バークレー校の共著者であるDacher Keltnerと、Google ResearchのFlorian Schroff, Brendan Jou, and Hartwig Adamに感謝します。またLaura Rapin, Reena Jana, Will Carter, Unni Nair, Christine Robson, Jen Gennai, Sourish Chaudhuri, Greg Corrado, Brian Eoff, Andrew Smart, Raine Serrano, Blaise Aguera y Arcas, Jay Yagnik およびCarson McneilによるGoogleでの追加サポートにも感謝しています。

3.人々の表情は国や地域が変わっても場面によって共通なのか?(2/2)関連リンク

1)ai.googleblog.com
Understanding Contextual Facial Expressions Across the Globe

2)www.nature.com
Sixteen facial expressions occur in similar contexts worldwide

タイトルとURLをコピーしました