最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか？

１．最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか？まとめ

・見た事がない分野の画像もかなりの精度で分類できる最新の人工知能CLIPの性能評価
・スタジオジブリのアニメーション映画の名場面を切り出して画像認識して精度を確認
・画像の類似性ではなく画像が表現する概念を認識しているように見えるケースがある

２．スタジオジブリの名場面を人工知能に認識させる

アイキャッチ画像はSTUDIO GHIBLIが「常識の範囲でご自由にお使いください」との断り書きで一般公開してくださっている風の谷のナウシカの作品静止画集より引用
2021年4月追記)「最新の人工知能はスタジオジブリの映画を知っているのか？」で続きを実験しました。

2021年の新年早々、今まで見た事がない分野の画像もかなりの精度で分類できるCLIPと言う人工知能が発表されたのですが、その実力をスタジオジブリが一般公開してくれている名場面集で試してみました。

従来の人工知能は「鳥の種別を分類する事を学習」させた後に鳥の画像を与えて「この鳥は何ですか？」と種別を聞くとかなりの精度で答える事ができました。しかし、例えばこの人工知能に鳥と関係ない自動車の画像を与えても鳥の一種と誤認識しまう事が多く、正確に認識させる事が難しかったのです。

GPT-3の系譜を汲むCLIPはこの限界を突破し、学習時に見た事がない分野の画像も高い精度で認識する事ができると言う触れ込みなので、おそらく今まで見た事がないであろう(少なくとも学習用データとして整備された状態で与えられた事はないであろう)スタジオジブリのアニメーション映画の名場面を認識して貰いました。

（１）「ナウシカとテト」と「千尋とカオナシ」

左はナウシカの名場面ですが「girl(少女)」の確率が最も高いと評価し、2位が「woman(女性)」、3位が「boy(少年)」との事。実写でないアニメ映画の場面を見てここまで正確に「girl」を認識してくるとは思っていなかったので、この時点で「うはっ！」と変な声が出ました。

続く右側は千と千尋の名場面ですが、「boy(少年)」の確率が最も高いと評価し2位が「train(電車)」、3位が「whale(鯨)」、千尋はboyではありませんが髪短いですし隣にカオナシいますから致し方なし、2位の「train(電車)」が素晴らしい、つり革に着目したのかな？「いぃ～よぉ～」と同じく変な声が出ました。

（２）「豚に変えられてしまったお父さん」と「千と千尋の龍神」

左側は千と千尋で豚に変えられてしまったお父さんですが、「cattle(家畜)」の確率が最も高いと評価し、2位が「man(男性)」、3位が「woman(女性)」との事。素晴らしい、間違ってないですよ。

右側は龍神です。画像を真ん中で切り抜いているので右端の顔が見切れてしまっており難度が高かったと思うのですが「dolphin(イルカ)」の確率が最も高いと評価し、2位が「crocodile(ワニ)」、3位が「whale(鯨)」との事。龍神と言う概念はCLIPは知らないと思うので、水に関連且つ生物と言う観点で方向性は間違ってないです、悪くない。

（３）「メーヴェに乗るナウシカ」と「ラピュタのムスカ大佐」

左側はナウシカに出て来る動力付き１人乗りグライダーであるメーヴェ、ドイツ語で「カモメ」を意味する単語だそうですが、「motorcycle(バイク)」の確率が最も高いと評価し、2位が「whale(鯨)」、3位が「tank(戦車)」との事。鯨好きだな、とは思いつつ、こちらも単身で乗る乗物と言う事で、「motorcycle(バイク)」の方向性は間違ってないです、素敵。

右側はラピュタのムスカ大佐ですが、「man(男性)」の確率が最も高いと評価し、2位が「boy(少年)」、3位が「woman(女性)」との事。ナウシカ(16歳)は「少女の確率＞女性の確率」だったけれども、ムスカ大佐(32歳)はちゃんと「男性の確率＞少年の確率」になってますね、ムスカ大佐も完璧だ！

（４）「パズーとシータ」と「ナウシカの王蟲」

左はラピュタの名場面です。「boy(少年)」の確率が最も高いと評価し、2位が「aquarium_fish(観賞魚)」、3位が「lawn_mower(芝刈り機)」との事。左側のシータは顔が見切れてしまってますしパズー＝少年で合ってます。

続く右側はナウシカより王蟲なのですが、左右が見切れている非常な高難易度にも関わらず、こ、これは・・・。「tank(戦車)」の確率が最も高いと評価し2位が「caterpillar(キャタピラー、芋虫の意もあり)」、3位が「tractor(トラクター)」、4位が「lobster(ロブスター)」。うーん、これは誤認識なんでしょうか？前述の龍神、メーヴェの際も感じたのですが「知らない概念」を入力で与えられた場合、単純な画像の類似性ではなく「画像が表現する概念同士が似ているか？」と、画像の持つ意味(セマンティック)で判断しているような気がして「何だとっ！」と激しく独り言を叫んでしまいました。しかし、以下では単純な誤認識に見える例も散見されるので勘違いかもしれませんが・・・。

（５）猫の恩返し

左：おっとぉ～、二番目はかなり怒られる誤認識だぞ～右：二足歩行は確かに猫よりアライグマ(raccoon)の方がやりそうではありますね。

（６）ハウルの動く城

左：食べ物より人物に注目してしまう模様　右：何を持ってこれが城(castle)と判断できたのだCLIPよ、一般常識的には城は空中に飛び跳ねたりしないからな！CLIPはインターネット上の画像とその説明文からも学習しているので「ハウルの動く城」に関するWebページから本画像を知っていて城と結びつけて記憶している可能性もありますね。