1.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)まとめ
・画像キャプショニングは画像に対する説明文を自動的に生成する機械学習タスク
・視覚情報と言語情報を同時に扱うためマルチモーダル研究の中核をなすタスク
・Crossmodal-3600は英語に偏っていたデータセットを多言語版に拡張した
2.Crossmodal-3600とは?
以下、ai.googleblog.comより「Crossmodal-3600 — Multilingual Reference Captions for Geographically Diverse Images」の意訳です。元記事の投稿は2022年10月13日、Ashish ThapliyalさんとJordi Pont-Tusetさんによる投稿です。
アイキャッチ画像はstable diffusionの生成で多言語風にしてみようと思って手始めに忍者風トトロ/侍風トトロを作ろうとして予想外に難しくて雰囲気だけで力尽きました。
画像キャプショニング(Image captioning)は、与えられた画像に対して流暢な自然言語の説明を自動的に生成する機械学習タスクです。このタスクは、視覚障害者の利用しやすさを向上させるために重要であり、視覚モデリングと言語モデリングの両方を包含するマルチモーダル研究の中核をなすタスクです。
しかし、画像キャプションのデータセットは、主に英語で提供されています。さらに、世界人口のごく一部である限られた言語をカバーするデータセットしか存在しません。さらに、これらのデータセットは、世界中の文化の豊かさと多様性を十分に表現していない画像を特徴としています。このため、様々な言語に対する画像キャプションの研究が妨げられ、世界中の多くの潜在的利用者に対するアクセシビリティ・ソリューションの展開に直接支障をきたしています。
本日、私たちは多言語画像キャプションの強固なベンチマークとして、Crossmodal 3600(XM3600)画像キャプション評価データセットを発表し、一般公開します。XM3600は、地理的に多様な3600枚の画像に対して、人間が生成した36言語のキャプションを261,375件提供しています。このキャプションは高品質であり、言語間でスタイルが一貫していることを以下に示します。
クロスモーダル3600データセットには、地理的に多様な3600枚の画像のそれぞれに、36言語の参照用キャプションが含まれています。すべての画像は、CC-BY 2.0ライセンスのもと、許可を得て使用しています。
Crossmodal 3600 データセットの概要
多言語による大規模な学習・評価データセットの作成は、リソース集約的な取り組みです。最近の研究では、英語のキャプションを出発点として機械翻訳されたデータで訓練された多言語画像キャプションモデルを構築することが可能であることが示されています。
しかし、翻訳された画像キャプションを幾つかの最も信頼できる自動測定可能な指標で評価すると、英語の場合と比較して人間の評価との一致が悪くなり、はるかに効果が低くなります。
そのため、現在のところ、広範にわたる人間が行った評価のみが信頼できるモデル評価となります。しかし、このような評価は、通常、異なる研究努力の間で再現することができないため、複数のモデルのパラメータや構成を自動的に評価したり(例:モデルを山登り法アルゴリズムを使って探索する)、複数の研究ラインを比較するための高速で信頼できるメカニズムを提供することはできません。
XM3600は、Open Imagesのデータセットから、地理的に多様な3600の画像に対して、36言語で261,375の人間が生成した参照用キャプションを提供するものです。生成されたキャプションの品質は、0(参照キャプションと無関係)から10(参照キャプションと完全に一致)までの数値で測定されます。
その結果、各モデルのCIDErスコアの差と、各モデルの出力結果を比較した人間の評価には強い相関があることが分かりました。このように、XM3600は、英語以外の様々な言語の画像キャプションモデル間の高品質な自動比較のための信頼性の高いツールとなっています。
言語の選定
英語以外の言語については、Webコンテンツに占める割合から30言語を選択しました。さらに、ネイティブ・スピーカーが多いリソース不足の言語や、他の言語ではカバーできない大陸の主要なネイティブ・ランゲージを含む5言語を追加で選択しました。最後に、英語もベースラインとして加えた結果、下表のように合計 36 言語となりました。
Arabic | Bengali* | Chinese | Croatian | Cusco Quechua* | Czech |
Danish | Dutch | English | Filipino | Finnish | French |
German | Greek | Hebrew | Hindi | Hungarian | Indonesian |
Italian | Japanese | Korean | Maori* | Norwegian | Persian |
Polish | Portuguese | Romanian | Russian | Spanish | Swahili* |
Swedish | Telugu* | Thai | Turkish | Ukrainian | Vietnamese |
XM3600で使用されている言語の一覧です。 *印はネイティブスピーカーの多い低資源言語、または他ではカバーできない大陸の主要なネイティブ言語です。
3.XM3600:人が翻訳した説明文が付いた地理的に多様な多言語キャプションデータセット(1/2)関連リンク
1)ai.googleblog.com
Crossmodal-3600 — Multilingual Reference Captions for Geographically Diverse Images
2)google.github.io
Crossmodal-3600