1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)まとめ
・36言語のほとんどで適切な地域から100枚の画像を収集する事に成功した
・注釈付け作業も画像の内容のみに基づいてキャプションを生成するように工夫
・36言語中25言語では、高評価されたキャプションの割合が90%を超えた
2.Crossmodal-3600の生成手法
以下、ai.googleblog.comより「Crossmodal-3600 — Multilingual Reference Captions for Geographically Diverse Images」の意訳です。元記事の投稿は2022年10月13日、Ashish ThapliyalさんとJordi Pont-Tusetさんによる投稿です。
アイキャッチ画像はstable diffusionの生成
画像の選択
画像は、Open Imagesデータセットの中から、メタデータ内に位置情報を持つものを選択しました。複数の言語が話されている地域は多く、これらの画像で十分にカバーされていない地域もあるため、選択した画像と対象言語の話されている地域との対応関係を最大化するアルゴリズムを設計しました。
このアルゴリズムでは、まず対応する地理データを持つ画像が最も少ない言語(例:ペルシャ語)を選択し、候補画像を地域を広げながら探していきます。
もし、ある言語が話されている地域の画像が十分でない場合は、
(i)その言語が話されている国
(ii)その言語が話されている大陸
(iii)そして最後の手段として、世界のどこからでも
と徐々に地理的選択半径を広げていきます。
この戦略により、ペルシャ語(14枚の大陸レベルの画像を使用)とヒンディー語(地域内の画像がベンガル語とテルグ語に割り当てられたため、100枚すべてが世界レベルの画像)を除く36言語のほとんどで、適切な地域からの目標数である100枚の画像を提供することに成功しました。
Photo by Chris Sampsonスワヒリ語
Photo by Henrik Palmテルグ語
Photo by rojypala
クスコ語
Photo by McKay Savage
フィリピン語
Photo by Simon Schoeters
中国語
Photo by Stefan Krasowski
注釈付けされた画像の地理的な多様性を示すサンプル画像。画像はCC BY 2.0ライセンスの下で使用されています。
キャプションの生成
3600枚の画像(各言語100枚)に、36言語すべてで、各言語で平均2回の注釈付けを施し、合計261,375枚のキャプションを生成しています。
注釈付け作業者は15枚単位で作業を行います。最初の画面は、「<環境(environment)>の中で<活動(activities)>している<主な顕著な物体(main salient objects)>」という一貫したスタイルを出力するように学習したキャプションモデルによって、15枚の画像とその英語のキャプションを表示したもので、しばしば「笑顔」の人物や「赤い」車などの物体属性が含まれます。
注釈付け作業者は、「優秀(excellent)」から「粗悪(bad)」までの4段階と「十分な情報が足りない(not_enough_information)」の選択肢でキャプションの品質を評価するように要求されます。このステップでは、キャプションの品質を慎重に評価するよう注釈付け作業者に強制し、キャプションのスタイルを習得するための素地とします。
次の画面では、再び画像が表示されますが、個々に、英語のキャプションなしで、注釈付け作業者は、各画像のターゲット言語で説明的なキャプションを作成するように要求されています。
15枚というバッチサイズは、注釈付け作業者が正確なキャプションを記憶することなく、キャプションのスタイルを習得するために選ばれました。したがって、評価者は画像の内容のみに基づいてキャプションを生成し、既存キャプションを翻訳する事がない事を期待します。
例えば、以下の例では、スペイン語のキャプションは「42番」、タイ語のキャプションは「コンバーチブル(訳注:屋根を取り付ける事が可能なオープンカー)」に言及していますが、いずれも英語のキャプションでは言及されていません。また、注釈付け作業者はキャプションを作成する際に使用する手順を提供され、言語間のスタイルの一貫性を実現しました。
Photo by Brian Solis
英語
・ショールームにずらりと並んだヴィンテージスポーツカー
・ブランド物のクラシックカーが並んでいます
スペイン語
・ギャラリーカーショーのクラシックスポーツカー
・自動車ショーで番号42を付けた小さな銀色のレーシングカー
タイ語
・色とりどりのコンバーチブルが展示に並ぶ
・ショーには数台のヴィンテージレーシングカーが並びます言語間で一貫したスタイルを持ち、直訳の影響を受けない注釈の作成例
(例:スペイン語の「42番」やタイ語の「コンバーチブル」は、英語版からの直訳では不可能です)画像はCC BY 2.0ライセンスで使用されています。
キャプションの品質と統計
キャプション生成プロセスのトラブルシューティングと高品質のキャプションを確保するために、1言語あたり2~5回の試験を実施しました。その後、キャプションのランダムなサブセットを手動で評価しました。まず、600枚の画像からランダムにサンプルを選びました。次に、特定の言語でのキャプションの品質を測定するために、各画像について、手動で生成したキャプションの中から1つを選んで評価しました。その結果、以下のことがわかりました。
36言語中25言語では、「良い」または「素晴らしい」と評価されたキャプションの割合が90%を超えました。残りの言語も全て70%以上でした。
36言語中26言語では、「悪い」と評価されたキャプションの割合は2%未満でした。残りの言語も全て5%未満です。
スペースで単語を区切る言語の場合、1つのキャプションに含まれる単語数は、クスコ・ケチュア語やチェコ語などの膠着言語(agglutinative language)では5、6個、ベトナム語などの分析的言語(Analytic language)では18個となることがあります。また、1文字あたりの文字数も、韓国語の20文字台後半からインドネシア語の90文字台後半まで、アルファベットや文字種によって大きく異なります。
実証的評価と結果
多言語画像キャプションモデルの4つのバリエーションを学習させ、XM3600データセットの30以上の言語に対するモデルの出力のCIDEr差と、人間の評価を比較することにより、XM3600の注釈が画像キャプションモデルのバリエーションをランク付けする能力を実証的に測定しました。
その結果、CIDErの差分と人間による評価の間に強い相関があることが確認されました。これらの結果は、英語以外の様々な言語に対する画像キャプションモデル間の高品質な自動比較を実現する手段として、XM3600を参照利用することを支持するものです。
最近の利用状況
PaLIは最近、XM3600を使用して、画像キャプション、画像からテキストへの検索、テキストから画像への検索について、英語以外のモデルのパフォーマンスを評価しました。XM3600で評価した結果、多言語キャプションはPaLIモデルの拡張性、特に低リソース言語に対して大きなメリットをもたらすことがわかりました。
謝辞
本研究の共著者に謝意を表します。Xi ChenとRadu Soricutに感謝します。
3.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(2/2)関連リンク
1)ai.googleblog.com
Crossmodal-3600 — Multilingual Reference Captions for Geographically Diverse Images
2)google.github.io
Crossmodal-3600