FILM：２つの異なる写真の間を補完して動画を生成(2/2)

１．FILM：２つの異なる写真の間を補完して動画を生成(2/2)まとめ

・３つの損失関数を組み合わせて鮮明さと画像忠実度を大幅に向上させている
・FILMは画像間に100画素程度の大きな差があっても鮮明な画像を生成可能
・小さな動きや中程度の動きにもうまく対応した滑らかな映像を生成可能

２．Filmと性能

以下、ai.googleblog.comより「Large Motion Frame Interpolation」の意訳です。元記事の投稿は2022年10月4日、Fitsum RedaさんとJanne Kontkanenさんによる投稿です。

翻訳時に大きなサイズの画像に圧縮処理をしたためgif画像での品質比較がわかりにくくなってます。細部を比較したい方は元サイトをご覧いただければと思います。

アイキャッチ画像はstable diffusionの生成

損失関数

学習時には、3つの損失を組み合わせることでFILMを教師します。

まず、入力画像間の動きを捉えるために、予測フレームと検証済フレーム間のL1差の絶対値を用います。しかし、これだけでは画像がぼやけてしまいます。次に、画像の忠実度を向上させるために、知覚的損失を用います。これは、予測フレームと検証済フレームから抽出したImageNetで事前に学習したVGG-19特徴量のL1差を最小化するものです。第三に、スタイル損失を用いて、ImageNetで事前学習したVGG-19特徴のグラム行列のL2差を最小化します。

このスタイル損失により、ネットワークはシャープな画像と、事前に除外した大きな領域のリアルな画像内補完を生成することができます。最後に、それぞれの損失が総損失に等しく寄与するように経験的に選択された重みで、損失を結合します。

下図に示すように、L1損失とVGG損失でFILMを学習させた場合と比較して、結合損失は鮮明さと画像の忠実度を大幅に向上させます。複合損失は、木の葉レベルの鮮明さを維持します。

FILMの複合損失関数
L1損失(左)、L1＋VGG損失(中)、スタイル損失(右)で、鮮明さが大幅に改善されていることがわかります。(緑枠部分)

画像・映像の評価

撮影風景の動きが大きい内製の重複写真データセットでFILMを評価しました。また、最近のフレーム補間手法とFILMを比較しました。また、最近のフレーム補間手法であるSoftSplatやABMEと比較しますた。FILMは、大きな動きに対して補間を行う際に、良好な性能を示しました。100画素程度の大きな動きがあっても、FILMは入力と一致したシャープな画像を生成します。

SoftSplat(左)、ABME(中)、FILM(右)。フレーム補間で、良好な画質と時間的な整合性が得られています。

大きな動きを補間
上：64倍速のスローモーション映像
下(左から右)：2つの入力画像をブレンドし、SoftSplat補間、ABME補間、FILM補間を行ったもの。FILMは、背景の細部を維持したまま犬の顔を捉えています。

まとめ

大きな動きに対応可能なモーションフレーム補間ニューラルネットワークFILMを紹介しました。FILMは、スケールによらず重みを共有する特徴ピラミッドを採用し、通常の動きを持つフレームから学習し、大きな動きを持つフレームにうまく汎化する「スケールによらない」双方向の動き推定器を構築することができます。

撮影風景が大きく動く事による広い不鮮明さを扱うため、ImageNetで事前に学習したVGG-19特徴のグラム行列を照合することで、FILMを教師し、真に迫った画像補完と鮮明な画像を実現します。FILMは大きな動きに対して良好な性能を発揮する一方で、小さな動きや中程度の動きにもうまく対応し、時間的に滑らかな高画質映像を生成することができます。

ご自身で実際に使ってみてください

FILMのソースコードは公開されていますので、お手持ちの写真で試してみてください。

謝辞

Eric Tabellion、Deqing Sun、Caroline Pantofaru、Brian Curlessの各氏の貢献に感謝します。また、Marc Comino Trinidadのスケールに依存しない特徴抽出器に関する貢献、Orly LibaとCharles Herrmannの文章に対するフィードバック、Jamie Aspinallの論文中の画像、Dominik Kaeser, Yael Pritch, Michael Nechyba, William T. Freeman, David Salesin, Catherine Wah そして Ira Kemelmacher-Shlizermanのサポートに感謝いたします。この記事のアニメーション図を作成してくれたTom Smallに感謝します。