VTN：Transformerを使用した文書レイアウトの自動化(2/2)

１．VTN：Transformerを使用した文書レイアウトの自動化(2/2)まとめ

・レイアウトの品質と多様性という2つの基準に従ってVTNのパフォーマンスを評価
・従来の研究は配置ルールに準拠できなかったり多様性に問題があったがVTNは克服
・Android UIや自然な風景屋内の風景(SUN RGB-D)などのデザインルールにも適応できた

２．VTNの性能

以下、ai.googleblog.comより「Using Variational Transformer Networks to Automate Document Layout Design」の意訳です。元記事は2021年6月8日、Diego Martin ArroyoさんとFederico Tombariさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Kelly Sikkema on Unsplash

変分ボトルネックのモデリング
VAEのボトルネックは、通常、入力を表現するベクトルとしてモデル化されます。self-attentionレイヤーはシーケンス間アーキテクチャ、つまり、n個の入力要素の並びがn個の出力要素にマッピングされるため、標準のVAE定式化を適用することは困難です。

BERTに触発されて、連続データの先頭に補助トークンを追加し、それをオートエンコーダのボトルネックベクトルzとして扱いました。トレーニング中、このトークンに関連付けられたベクトルがデコーダーに渡される唯一の情報となるため、エンコーダーはこのベクトル内にドキュメント情報全体を圧縮する方法を学習する必要があります。

次に、デコーダーは、このベクトルのみから、ドキュメント内の要素の数と入力シーケンス内の各要素の位置を推測することを学習します。この戦略により、カルバック・ライブラー情報量などのボトルネックを正規化するための標準的な手法を使用できます。

デコード
さまざまな数の要素を持つドキュメントを合成するために、ネットワークは任意の長さの連続データをモデル化する必要がありますが、これは簡単ではありません。

self-attentionにより、エンコーダーは任意の数の要素に自動的に適応できますが、デコーダー部は事前に要素の数を認識できません。自己回帰的な方法で連続するデータをデコードすることでこの問題を克服します。すべてのステップで、デコーダーは要素を生成します。この要素は、特別な停止要素が生成されるまで、以前にデコードされた要素(入力のボトルネックベクトルzを先頭として)に連結されます。

私たちが提案するアーキテクチャの視覚化

レイアウトを入力データに変換する
ドキュメントは、多くの場合、段落、表、画像、タイトル、脚注など、いくつかのデザイン要素で構成されます。

デザインの観点から、レイアウト要素は、多くの場合、それらを囲む境界ボックスの座標で表されます。この情報をニューラルネットワークで簡単に消化できるようにするために、ページ上の要素の位置(x, y)とサイズ(幅、高さ)を表す4つの変数(x, y, width, height)で各要素を定義します。

結果
レイアウトの品質とレイアウトの多様性という2つの基準に従って、VTNのパフォーマンスを評価しました。レイアウト注釈付きの科学論文のコレクションであるPubLayNetなどの公開されているドキュメントデータセットでモデルをトレーニングし、要素間の重なり具合や整列具合を定量化することで、生成されたレイアウトの品質を評価します。

要素クラス(段落、画像など)と境界ボックスの分布に対するワッサースタイン距離を使用して、合成レイアウトがトレーニングデータ分布にどの程度類似しているかを測定します。レイアウトの多様性を把握するために、DocSim指標を使用して、生成された各ドキュメントに最も類似した実際のサンプルを見つけます。実際のデータとの一意に一致する数が多いほど、結果が多様であることを示します。

VTNアプローチを、LayoutVAEやGupta等による研究(Layout Generation and Completion with Self-attention)などの以前の研究と比較しました。前者はLSTMバックボーンを備えたVAEベースの処方です。が、Gupta等は標準の検索戦略(beam search)と組み合わせて、私たちと同様のself-attentionメカニズムを使用します。以下の結果は、PubLayNetの場合のように、LayoutVAEが厳密な配置などのデザインルールに準拠するのに苦労していることを示しています。self-attention操作のおかげで、Gupta等はこれらの制約をはるかに効果的にモデル化できますが、beam searchの使用は結果の多様性に影響を与えます。

	IoU	Overlap	Alignment	Wasserstein Class ↓	Wasserstein Box ↓	# Unique Matches ↑
LayoutVAE	0.171	0.321	0.472	–	0.045	241
Gupta et al.	0.039	0.006	0.361	0.018	0.012	546
VTN	0.031	0.017	0.347	0.022	0.012	697
Real Data	0.048	0.007	0.353	–	–	–

PubLayNetでの結果
下矢印（↓）はスコアが低いほど良いことを示し、上矢印（↑）はスコアが高いほど良いことを示します。

また、Android UI(RICO)、自然な風景(COCO)、屋内の風景(SUN RGB-D)など、他の領域のデザインルールを学習するアプローチの能力についても説明します。私たちの方法は、これらのデータセットのデザインルールを効果的に学習し、現在の最先端技術と同様の品質と高度な多様性の合成レイアウトを生成します。

	IoU	Overlap	Alignment	Wasserstein Class ↓	Wasserstein Box ↓	# Unique Matches ↑
LayoutVAE	0.193	0.4	0.416	–	0.045	496
Gupta et al.	0.086	0.145	0.366	0.004	0.023	604
VTN	0.115	0.165	0.373	0.007	0.018	680
Real Data	0.084	0.175	0.41	–	–	–

RICOの結果
下矢印（↓）はスコアが低いほど良いことを示し、上矢印（↑）はスコアが高いほど良いことを示します。

	IoU	Overlap	Alignment	Wasserstein Class ↓	Wasserstein Box ↓	# Unique Matches ↑
LayoutVAE	0.325	2.819	0.246	–	0.062	700
Gupta et al.	0.194	1.709	0.334	0.001	0.016	601
VTN	0.197	2.384	0.33	0.0005	0.013	776
Real Data	0.192	1.724	0.347	–	–	–

COCOの結果
下矢印（↓）はスコアが低いほど良いことを示し、上矢印（↑）はスコアが高いほど良いことを示します。

以下は、既存の方法と比較した、私たちの方法によって生成されたレイアウトのいくつかの例です。ネットワークによって学習されたデザインルール(位置、余白、整列状態)は、元のデータのデザインルールに似ており、高度な多様性を示しています。

LayoutVAE

Gupta et al.

VTN
既存の最先端の方法と比較したPubLayNetでの私たちの方法の定性的結果

結論
この作業では、VAE定式化の一部としてself-attentionを使用することの実現可能性を示します。レイアウト生成に対するこのアプローチの有効性を検証し、さまざまなデータセットおよびさまざまなタスクで最先端のパフォーマンスを実現しました。私たちの研究論文はまた、self-attentionとVAEを統合するための代替アーキテクチャを探求し、非自己回帰デコード戦略とさまざまなタイプの事前確率を探求し、長所と短所を分析しています。

私達の手法で作成されたレイアウトは、ドキュメントの解析やグラフィックデザインタスクの自動化など、下流工程タスク用に合成トレーニングデータを作成するのに役立ちます。

レイアウト内の要素のスタイル(テキストのフォント、画像選択など)の提案方法など、多くのサブ問題がまだ完全には解決されていないため、この作業がこの分野での継続的な研究の基盤、もしくはモデルを一般化するために必要なトレーニングデータの量を減らす方法となることを願っています。

謝辞
共著者のJanis Postelsと、いくつかの実験の設計を手伝ってくれたAlessio TonioniとLuca Prassoに感謝します。また、本投稿のアニメーションの作成に協力してくれたTom Smallにも感謝します。