画像の説明文を利用して視覚的質問回答データを作成(1/2)

１．画像の説明文を利用して視覚的質問回答データを作成(1/2)まとめ

・視覚的質問回答(VQA)は画像から視覚的に読み取れる質問に回答するシステム
・視覚と自然言語を同時に扱う必要がありマルチタスクで質問範囲が限定されていない
・VQAシステムは大規模学習データを必要とするので自動生成する手法を検討した

２．\(VQ^2A\)とは？

以下、ai.googleblog.comより「Rewriting Image Captions for Visual Question Answering Data Creation」の意訳です。元記事は2022年7月13日、Soravit Beer ChangpinyoさんとDoron Kukliansky‎さんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Hans-Jurgen Mager on Unsplash

視覚的質問回答(VQA:Visual Question Answering)は、画像に関する視覚的な質問に答えるモデルを必要とする有用な機械学習(ML:Machine Learning)タスクです。このタスクは、コンピュータビジョンと自然言語理解における複数の技術的な研究課題を同時に解決する必要があり、マルチタスクで質問範囲に制約がない性質を持っていることが課題となっています。

しかし、このタスクが進展すれば、視覚障害者の支援やロボットとのコミュニケーション、外部知識を利用したユーザーの視覚体験の向上など、幅広い応用が可能になります。

効果的で堅牢なVQAシステムは、高品質で意味的・文体的に多様な画像-質問-回答の大規模学習データなしには存在し得ません。しかし、そのようなデータを作成するのは時間がかかり、負担が大きいです。当然のことながら、VQAコミュニティは、規模の大きいデータの作成よりも、洗練されたモデル開発に重点を置いてきました。

NAACL 2022で発表した「All You May Need for VQA are Image Captions」において、私達は「Visual Question Generation with Question Answering Validation(\(VQ^2A\))」を提案し、VQAデータ生成を探求しています。

\(VQ^2A\)は、画像に付与されている説明文(キャプション)を複数の質問と答えのペアに書き換えることによって機能するパイプラインです。

具体的には、
(i)大規模な画像-テキストデータセット
(ii)大容量のニューラルテキスト-テキストモデル
という2つの既存資産を活用し、VQAデータの自動生成を実現するものです。

この分野の進歩に伴い、研究コミュニティはこれらの資産を単独で(テキストのみ、または画像テキスト特徴表現の学習などの一般的な目的のために)より大きくより強くしてきましたが、一緒にすることでより多くのことを達成できるので、私達はVQAデータ作成の目的のためにそれらを適応させました。私たちは、私たちのアプローチが高い精度で質問と回答のペアを生成でき、このデータをVQAモデルの訓練にうまく利用することで、パフォーマンスを向上させることができることを発見しました。

\(VQ^2A\)は、画像のキャプションを複数の質問と答えのペアに書き換えることで、キャプションから大規模なVQAデータを生成する技術です。

\(VQ^2A\)の概要

\(VQ^2A\)では、まず、名前付き固有表現認識、品詞タグ付け、および人力で定義したルールに基づく経験則を適用して、画像説明文から回答候補を生成します。生成された回答候補は、質問に関連する主題となりうる小さな情報の断片です。また、このリストに「はい」と「いいえ」の2つのデフォルトの回答を追加し、ブール型質問を生成できるようにします。

次に、候補に対する質問を生成するために微調整されたT5モデルを使用し、[質問と回答候補]のペアを生成します。次に、別の(質問に答えるために微調整された)T5モデルを使って、説明文に基づく質問に答えるよう依頼し、最高品質のペアをフィルタリングします。つまり、回答候補をこのモデルの出力と比較し、2つの答えが十分に似ていれば、この質問を高品質と定義して保持するのです。そうでない場合は、フィルタリングします。