VTN：Transformerを使用した文書レイアウトの自動化(1/2)

１．VTN：Transformerを使用した文書レイアウトの自動化(1/2)まとめ

・レイアウトやデザインルールは従う事は簡単だが例外があるため明確に定義することは困難
・機械学習を使った自動デザインはレイアウト要素間の定義情報がないと新要素に対応できない
・VTNは変分オートエンコーダーを使い追加情報を必要としない文書レイアウト生成システム

２．人工知能で文書のレイアウトを自動で生成する試み

以下、ai.googleblog.comより「Using Variational Transformer Networks to Automate Document Layout Design」の意訳です。元記事は2021年6月8日、Diego Martin ArroyoさんとFederico Tombariさんによる投稿です。

人工知能を使ってデザインを自動化する試みは良く聞く事がありますが、本稿を読む限り、「ハードコードされた一連のデザイン自動作成ルールを備えたシステム」の域から抜け出して多様なデザイン要素に対応するのは簡単ではなさそうですね。

アイキャッチ画像のクレジットはPhoto by Kelly Sikkema on Unsplash

文書による情報は、それ自体に含まれる単語の意味だけでなく、文書全体のレイアウトによっても伝えられます。レイアウトは通常、読者がドキュメントを読み解く順序を指示しており、理解を深める(列や段落など)、役立つ要約を提供する(タイトルなど)、または美的目的(広告表示など)に使用されます。

これらのデザインルールには簡単に従う事ができます。しかし、例外やあいまいなケースを含めることなく、それらを明示的に素早く定義することは困難です。

これにより、文書デザインの自動化が困難になります。ハードコードされた一連のデザイン自動作成ルールを備えたシステムは、(合成データのレイアウトに多様性がないため)過度に単純化されており元のレイアウトを再現できないか、または多数のルールとそれに付随する例外が含まれており複雑すぎるシステムになるためです。

この課題を解決するために、ドキュメントレイアウトを合成するための機械学習(ML:Machine Learning)を使った手法を提案する人もいます。ただし、自動ドキュメント設計のためのほとんどのMLベースのソリューションは、多数のレイアウト部品を使うように拡張できないか、ドキュメント内のさまざまな部品同士の関係性など、トレーニングの際に参照する追加情報に依存しています。

CVPR 2021で発表される論文「Variational Transformer Networks for Layout Generation」では、任意の数の要素に規模拡張可能で、設計要素間の関係を捕捉するために追加情報を必要としないドキュメントレイアウト生成システムを作成します。

self-attentionレイヤーを変分オートエンコーダー(VAE:Variational AutoEncoder)の土台として使用します。これにより、事前定義された経験側のセットを使用するのではなく、ドキュメントレイアウトのデザインルールを分布としてモデル化できるため、生成されるレイアウトの多様性が高まります。

結果として得られるVariational Transformer Network(VTN)モデルは、レイアウト要素(段落、表、画像など)間の意味のある関係を抽出でき、現実的な合成ドキュメント（たとえば、より良い配置や余白)をもたらします。科学論文、UIレイアウト、さらには家具の配置など、さまざまな領域にわたってこの組み合わせの有効性を示します。

レイアウト生成用のVAE
このシステムの最終的な目標は、サンプルとして与えたコレクションから特定のタイプのレイアウトの設計ルールを推測することです。

これらの設計ルールが潜在的に何らかの分布に従っており、その分布に従う事がデザインの基礎となっていると考えれば、確率モデルを使用してそれを発見することができます。

私達はこれをVAE(変分オートエンコーダー、画像生成や異常検出などのタスクに広く使用されているモデルです)で行うことを提案します。これは、エンコーダーとデコーダーの2つの異なるサブパーツで構成されるオートエンコーダーアーキテクチャです。

エンコーダーは入力をより少ない次元に圧縮することを学習し、入力を再構築するために必要な情報のみを保持しようとします。一方、デコーダーはこの操作を元に戻すことを学習します。

エンコーダーによって圧縮された特徴表現(ボトルネックとも呼ばれます)は、既知の分布(例えば、正規分布)のように動作する事を強制できます。この事前分布からのサンプルを使ってネットワークのデコーダー部分に供給すると、トレーニングデータと同様の出力が得られます。

VAEを使って定式化する事の追加の利点は、エンコーダー部とデコーダー部が実装に依存しない事です。そのため、self-attentionレイヤー(通常はTransformerアーキテクチャーで使用される)を使用して、各レイアウト要素が残りの要素に与える影響を自動的に補足できます。

Transformerは、self-attentionレイヤーを使用して、長い連続データ内の関係をモデル化します。多くの場合、翻訳や要約などの自然言語理解タスクの連続データ(つまり文章)に適用されますが、それだけでなく、言語領域を超えて物体検出やドキュメントレイアウト理解タスクなどでも使用されます。

self-attention操作は、連続データ内の全ての要素を相互に関連付け、それらが相互にどのように影響するかを決定します。この性質は、明示的な注釈がなくとも、レイアウト内のさまざまな要素間の関係をモデル化するのに理想的です。

これらの関係から新しいサンプルを合成するために、レイアウト生成(例「Layout Generation and Completion with Self-attention」)や他の領域(例「CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION」)のいくつかのアプローチは、beam searchやnucleus sampling、top-k samplingなどの貪欲な検索アルゴリズムに依存しています

これらの戦略は、多くの場合、すべてのステップで最も可能性が高い結果を優先する傾向がある探索ルールに基づいているため、生成されたサンプルの多様性は保証されません。ただし、self-attentionとVAEの確率的手法を組み合わせることで、モデルは新しい要素を抽出可能な分布を直接学習できます。