ICDAR 2023で行われる階層的テキスト検出・認識に関するコンペ(2/2)

１．ICDAR 2023で行われる階層的テキスト検出・認識に関するコンペ(2/2)まとめ

・HierTextデータセットは画像領域、テキストレイアウトが多様であり、既存データセットと比較して多くのテキストが含まれている
・HierTextは画像1枚あたり平均103.8語を識別しており、これはTextOCRの3倍以上、ICDAR-2015の25倍以上の密度となっている
・テキストの画像内の分布も中央に偏っていないため従来のデータセットに比べて非常に認識難度が高いデータセットとなっている

２．HierText Challengeの内容

以下、ai.googleblog.comより「Announcing the ICDAR 2023 Competition on Hierarchical Text Detection and Recognition」の意訳です。元記事は2023年3月7日、Shangbang Longさんによる投稿です。

アイキャッチ画像はchatGPT先生に相談して作成したプロンプトに手を加えてカスタムStable Diffusion先生に作って貰ったイラスト。。

このデータセットを構築するために、まず、Google Cloud Platform(GCP)のText Detection APIを使用して、Open Imagesデータセットから画像に注釈を付けました。

これらの注釈付けされた画像をフィルタリングし、テキストコンテンツとレイアウト構造が豊富な画像のみを残しました。

次に、サードパーティパートナーと協力して、すべての書き写しを手作業で修正し、単語、行、段落構成にラベルを付けました。

その結果、11,639枚の転写画像が得られ、3つのサブセット((1)8,281枚の画像を含む訓練セット、(2)1,724枚の画像を含む検証セット、(3)1,634枚の画像を含むテストセット)に分割されました。

また、論文にあるように、HierTextデータセットのテスト画像がTextOCRやIntel OCRの訓練と検証の分割データセット内に含まれていないこと、またその逆がないことを確認し、データセット、TextOCR、Intel OCR(いずれもOpen Imagesから注釈画像を抽出)間の重複を確認しました。

以下では、HierTextデータセットを使用した例を視覚化し、各テキストの実体を異なる色で陰影付けすることで、階層的なテキストの概念を示しています。HierTextは、画像領域、テキストレイアウトが多様であり、テキスト密度が高いことがわかります。

HierTextデータセットからのサンプル
左：各単語の実体の図解
中央：行のクラスタリングの図
右：段落クラスタリングの図

テキストの密度が最も高いデータセット

新しい階層表現に加え、HierTextはテキスト画像(text images)という新しい研究領域を表現しています。HierTextは現在、最も高密度の一般公開されているOCRデータセットであることに留意してください。

以下では、他のOCRデータセットと比較して、HierTextの特徴を要約します。HierTextは画像1枚あたり平均103.8語を識別しており、これはTextOCRの3倍以上、ICDAR-2015の25倍以上の密度となっています。この高密度は、検出と認識に独自の課題をもたらし、その結果、HierTextはGoogleのOCR研究の主要データセットの1つとして使用されています。

Dataset	Training split	Validation split	Testing split	Words per image
ICDAR-2015	1,000	0	500	4.4
TextOCR	21,778	3,124	3,232	32.1
Intel OCR	191,059	16,731	0	10
HierText	8,281	1,724	1,634	103.8

複数のOCRデータセットとHierTextデータセットの比較

空間的な分布

また、HierTextデータセットのテキストは、TextOCR、Intel OCR、IC19 MLT、COCO-Text、IC19 LSVTといった他のOCRデータセットに比べて、空間分布が非常に均一であることがわかりました。

これらの先行データセットは、テキストが画像の中央に配置されるなど、構成が整った画像を持つ傾向があり、そのため識別が容易です。それに対して、HierTextのテキストは、画像内に広く分布しています。私たちの画像がより多様な領域から取得したものであることの証明です。このような特徴から、HierTextは公開されているOCRデータセットの中でも、他に類を見ないほど難しいものとなっています。

異なるデータセットにおけるテキストの部分分布

HierTextチャレンジ

HierTextチャレンジは、OCRモデルにとって斬新なタスクであり、ユニークな課題を伴うものです。私達は、このチャレンジに参加し、今年カリフォルニア州サンノゼで開催されるICDAR 2023に参加する研究者を募集します。この競技会が、新しい下流タスクに有用な豊かな情報表現を持つOCRモデルに対する研究コミュニティの関心を喚起することを期待しています。

謝辞

このプロジェクトの中心的な貢献者は、Shangbang Long、Siyang Qin、Dmitry Panteleev、Alessandro Bissacco、Yasuhisa Fujii、Michalis Raptisです。Ashok PopatとJake Walkerは貴重なアドバイスをくれた。また、バルセロナ自治大学のDimosthenis KaratzasとSergi Roblesには、協議会のウェブサイトの立ち上げを手伝っていただきました。