AutoFlip：機械学習を用いてビデオの最適な箇所を切り抜く(3/3)

１．AutoFlip：機械学習を用いてビデオの最適な箇所を切り抜く(3/3)まとめ

・なるべく全ての顔を画面に収めるモードと全ての顔を必ず画面に収めるモードの２つのモードを提供
・今後の研究としてはテキストやロゴを新しいアスペクト比によりよく適合するように再配置する事
・及びディープアンクロップテクノロジーにより元々表示されていた画像を超えた部分も表示する事など

２．AutoFlipのアルゴリズム

以下、ai.googleblog.comより「AutoFlip: An Open Source Framework for Intelligent Video Reframing」の意訳です。元記事の投稿は2020年2月13日、Nathan FreyさんとZheng Sunさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Jakob Owens on Unsplash

AutoFlipは、なるべく全ての顔を画面に収めようとする「All Faces Best Effortモード」と全ての顔を必ず画面に収める「All Faces Requiredtモード」の２つのモードを提供します。

必要な領域の全てを画面に収める事が不可能になった場合(例えば、多数の顔がフレーム上に広がりすぎている場合)、パイプラインは、レターボックス効果(訳注：ワイドスクリーンなどで良くある、縦横比を維持するための上下や左右の画面がないの両端を黒く塗りつぶす手法です)を適用し、画像非表示部分を塗りつぶす、積極的な切り抜きを行わない戦略に自動的に切り替わります。背景が単色であると検出された場合、その単色を使用して継ぎ目を感じさせない塗りつぶし(padding)が行われます。それ以外の場合、元のフレームをぼかしたバージョンが使用されます。

AutoFlipの使用例
このツールを開発者や映画製作者に直接リリース出来る事を楽しみにしています。ビデオ編集の自動化により、デザインの創造性とより多くの視聴者にビデオを届ける事を楽にします。

ビデオコンテンツを表示するデバイスの多様性が急速に増大し続けているため、ビデオフォーマットをさまざまなアスペクト比に適合させる能力はますます重要になっています。ユースケースがポートレートからランドスケープ、ランドスケープからポートレート、または4：3から16：9などの微調整であっても、AutoFlipはインテリジェントで自動化された適応型のビデオ再フレーミングのソリューションを提供します。

次は何ですか？
他の機械学習アルゴリズムと同様に、AutoFlipは、動画内の発言者の検出やアニメーション内の顔の検出など、ビデオ内の物体を検出する機能が誰かによって改善されるとその恩恵を受けることができます。

更に、ビデオは画面端に重要なテキストやロゴなどが表示する事があり、画面端が切り取られる事が多いと問題が発生します。テキストやロゴ検出機能と画像修復技術を組み合わせることで、AutoFlipの将来のバージョンがこれらのテキストやロゴを新しいアスペクト比によりよく適合するように再配置できるようになる事を願っています。

最後に、塗りつぶしが必要になる状況では、ディープアンクロップテクノロジーにより、元々表示されていた画像領域を超えた部分であっても表示できるようになる事を願っています。

GoogleはAutoFlipの内部改善に取り組んでいますが、オープンソースコミュニティの開発者や映画製作者からの貢献を奨励しています。

謝辞
Autoflipに貢献してくれた同僚に感謝します。
Alexander Panagopoulos, Jenny Jin, Brian Mulford, Yuan Zhang, Alex Chen, Xue Yang, Mickey Wang, Justin Parra, Hartwig Adam, Jingbin Wang そして Weilong Yang。オープンソース化を支援してくれたMediaPipeチームのJiuqiang Tang, Tyler Mullen, Mogan Shieh, Ming Guang Yong そして Chuo-Ling Changにも感謝します。