1.Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(1/2)まとめ
・現在のビジュアル検索ツールはトーンやムードといった主観的な概念では検索できない
・Mood Board Searchはムードボードを使って画像コレクションを検索する研究ツール
・MLの専門知識を持たない人でも見たままの視覚コンセプトを機械に認識させる事が可能
2.Mood Board Searchとは?
以下、ai.googleblog.comより「Enabling Creative Expression with Concept Activation Vectors」の意訳です。元記事は2022年7月7日、Been KimさんとAlison Lentzさんによる投稿です。
アイキャッチ画像はlatent diffusionでプロンプトはMood Board
コンピュータビジョンと自然言語処理の進歩により、公開され検索可能なウェブサイト上で利用可能な何十億もの画像を探索する新しい方法が解き放たれ続けています。
現在のビジュアル検索ツールは、カメラ、音声、テキスト、画像、または複数種の入力を同時に使用して検索することを可能にしています。しかし、視覚的なトーンやムードといった主観的な概念を現在のシステムに入力することは依然として困難です。そこで私たちは、アーティスト、写真家、画像研究者と共同で、機械学習(ML:Machine Learning)を用いて、データセットを視覚的に探索する方法として、表現力豊かなクエリをどのように利用できるかを研究しています。
本日、私たちはMood Board Searchを紹介します。Mood Board Searchは、画像コレクションに対するクエリとしてムードボード(訳注:デザインの分野で良く利用されている、アイデアやコンセプト、イメージカラーや写真をシンプルにボード上にまとめたもの。アイキャッチ画像参照)を使用する新しいML搭載のリサーチツールです。
これは、人々が自分自身の言葉で視覚的な概念を定義し、呼び起こすことを可能にします。ムードボード検索は、「平穏な(peaceful)」のような主観的なクエリや、「見落としがちなシーンの抽象的なディテール(abstract details in overlooked scenes)」や「記憶の一部や夢の一部を感じる鮮やかなカラーパレット(vibrant color palette that feels part memory, part dream)」など、通常の検索では有用な結果を得ることができないような単語や個々の画像に対して有効なツールになります。私たちは、このリサーチツールを「AI指針」に沿って開発し、今後も開発を続けていきます。
Mood Board Searchは、MLの専門知識を持たない人でも、見たままのビジュアルコンセプトをコンピュータに認識させることができるよう、柔軟で親しみやすいインターフェイスをデザインすることを目標としています。このツールのインタフェースは、クリエイティブな分野で、視覚的な資料のコレクションを使ってアイデアの「感じ」を伝えるためによく使われるムードボードにインスパイアされています。
Mood Board Searchは、画像コレクションに含まれる視覚的なコンセプトを認識するために、コンピューターに学習させることができます。
ムードボード検索は、伝えたいアイデアを表現する画像をドラッグ&ドロップするだけで、簡単に始められます。ムードボード検索は、画像が一貫した視覚的品質を共有している場合に最良の結果を返すので、色、パターン、テクスチャ、または構成において視覚的な類似性を共有しているムードボードに関連する結果が得られる可能性が高くなります。
また、画像に重み付けをしたり、コンセプトと反対の画像を追加したりすることで、どの画像がより重要であるかを示すことも可能です。そして、ユーザーは検索結果を確認することで、画像のどの部分がビジュアルコンセプトに最も合致しているかを理解することができます。フォーカスモードでは画像の一部を囲むように表示し、AIクロップでは直接切り取ることで、新しい構図に注目させやすくします。
AIクロップなどのインタラクションをサポートすることで、ユーザーは画像のどの部分が自分のビジュアルコンセプトに最もマッチしているかを確認することができます。
コンセプトアクティベーションベクトル(CAVs)を採用
Mood Board Searchは、GoogLeNetやMobileNetなどの事前学習したコンピュータビジョンモデルと、Concept Activation Vectors(CAVs)という機械学習のアプローチを利用しています。
CAVは、機械が画像(私たち人間が理解するもの)を表現するための方法です。ニューラルネットのembedding空間における数値や方向(これは機械が理解するものと考えることができます)を使って、イメージを表現します。
CAVは、TCAV(Testing with CAVs)という手法の一部として使うことができ、ユーザーが定義した概念が分類結果に対してどの程度重要であるかを定量化します。例えば、「シマウマ」という予測が縞模様の存在にどの程度敏感であるかということなどです。
3.Mood Board Search:「平穏な」などの主観的な概念を使った画像検索を可能にする(1/2)関連リンク
1)ai.googleblog.com
Enabling Creative Expression with Concept Activation Vectors
2)github.com
google-research / mood-board-search