機械学習に1800以上のムンクの絵画を学ばせる(1/2)

１．機械学習に1800以上のムンクの絵画を学ばせる(1/2)まとめ

・ムンクの絵を人工知能に見せてそこに描かれているものが何かを抽出する試み
・抽出した単語を用いてムンクの作品を検索しやすいようにする目的だったが様々な困難があった
・特に検索時に有用ではない芸術用語と正確ではない宗教用語を誤認識してしまう問題があった

２．ムンクの作品に機械学習を利用して検索用のタグ付けをする試み

以下、www.artnome.comより「Searching All 1800+ Of Munch’s Paintings With Machine Learning」の意訳です。元記事の投稿は2017年10月9日、Jason Baileyさんによる投稿です。少し古い記事ですが、上野の東京都美術館で2018年10月27日(土)～2019年1月20日(日)まで「ムンク展―共鳴する魂の叫び」の展示をやっているのでタイムリーなのです。後半はこちら。

アーティストの作品は氷山のようなものです。10％以上が水面上に出ることはほとんどありません。Edvard Munch(エドヴァルド・ムンク)にとって、それはほとんどの人がThe Scream(叫び)を良く知っている事、そしておそらく1,800以上ある彼の他の作品の精々1ダースかそこらが知られているのみで、残りの作品はほとんどの人が見た事がないでしょう。ほんの一握りの作品を見るだけで、アーティストについてどれだけ本当に知ることができるでしょうか。「叫び」だけを見たのであれば、ムンクの全ての絵は、私が感じたようににマコーレ・カルキンっぽい印象を与える性別のないゾンビに思えるかもしれません。しかし、これからわかるように、これは事実とはかけ離れています。

訳注）マコーレ・カルキンはホームアローンという昔大ヒットした映画の子役スターです。確かにホームアローンのポスターはムンクの叫びに印象は似てますね。

私達はアート愛好家が、水の上だけではなく、ムンクのすべての絵、氷山全体を見ることができるように、エドヴァルド・ムンクの全ての絵を検索可能なオンラインデータベースに格納しました。このブログでは、タイトル、寸法、素材などの従来の検索用に使うメタデータ以上の検索機能を拡張するために、絵画内のオブジェクトにタグを付けるために機械学習を使用した経験を共有します。

何を探すべきか
私達は絵の中にどのような特徴を探すべきかを決めるために、ムンクの1800以上の作品のタイトルを使ってそこから何か重要なテーマを引き出す事が出来るかを見るために以下のワードクラウド(頻出単語を大きく表示して単語の出現頻度を比較しやすくした図)を作成しました。

次に、最も頻度の高い単語を主題別にグループ化し、機械学習モデル用に8つの特徴に絞り込みました。

１）人と人以外

２）女性と男性

３）着衣とヌード

４）立っているか、座っているか

５）インテリアとエクステリア

６）木、雪、水

７）建物や乗り物

８）そして楽しみのために：帽子と帽子なし

Clarifai社の画像認識用人工知能を使用
Clarifai社の人々は私達の初期の画像認識の試みを非常に支持してくれました。そこで私達は、画像認識のためにClarifai社の画像認識用人工知能を使って作業を開始することにしました。人工知能は「物体、テーマ、ムードなどを含む11,000以上の異なる概念を認識」する事ができます。

Clarifai社の人工知能は、主に写真やビデオの画像認識をするために設計されています。そしてこのモデルは、「壁画」（199）、「抽象的」（352）、「画像」（338）、「肖像」（279）、および「テクスチャ」（270）のようなタグを高頻度で生成しました。これは正確ではありますが、検索用途には特に役に立ちません。 “神”（435）、 “宗教”（974）、そして “ベール”（381）のようなスピリチュアルに関する間違った認識も頻出しました。

下の事例にあるように、ムンクの「Two Women in White on the Beach」は、有用ではない芸術用語と正確ではない宗教用語について高い予測スコアを返した絵画の好例です。

TWO WOMEN IN WHITE ON THE BEACH Oil on Canvas, 1925
各単語に対する予測スコア
宗教：0.9988283
絵画：0.9986956
アート：0.9969698
聖人：0.9967551
聖なる：0.99258006
神：0.99031764

余談ですが、私は美術史の授業で宿題をやらずに、かつて同じ過ちを犯しました。私は、水に映る月が磔刑の象徴であると思うと授業で発言しました。教授が私の誤りを正したとき、クラス全員が大声で笑いました。それはファルス(訳注：古代の芸術に稀に見られる男性器を誇張した表現)を象徴するものとして一般的に理解されており、私が宿題をしていなかったことは明らかだったのです。どうやら人工知能も宿題をやっていないようです。

私たちは私たちの目的のために人工知能の精度を改善し、写真の代わりに絵画で訓練したClarifaiでカスタムモデルを構築することによって関連性の低いタグを減らすことができるかもしれないと思いました。

カスタム画像認識モデルの構築
Clarifaiは、ユーザーフレンドリーなインターフェースで機械学習を使用してカスタム画像認識人工知能を簡単にトレーニングできます。私たちは、エドヴァルド・ムンクの絵画700枚をClarifaiのカスタムモデルビルダーにダンプすることから始めました。

このツールでは、あなたが探している概念で10枚の画像(最良の結果を得るためには50枚の画像)をタグ付けすることが推奨されています。加えて、概念を含んでいないいくつかの画像も必要です。私達は木に関して絵にタグを付けることから始めました。これはツール内で素早く簡単に実行でき、プログラミングは不要でした。私達のカスタムムンクモデルは、木が描かれている作品をすぐに正しく識別できるようになりました。