セマンティック検索の実例

１．セマンティック検索の実例まとめ

・セマンティック（Semantic）とは直訳すると「意味」
・人工知能にセマンティック、つまり意味や本質を理解させる試みはトレンド
・セマンティックを体験できるWebアプリ、Talk to BooksとSemantrisをGoogleが公開

２．セマンティック検索とは？

セマンティック(Semantic)とは直訳すると「意味」。しかし、そのまま「意味」として訳すと日本語として大変不自然な文章になる事が多く、セマンティックとカタカナで表記したくなるが、普通の人にはほぼ馴染のない単語であるため、読み手の脱落を誘う困った単語。

過去にもSemantic image segmentationを翻訳した時に訳語に悩んだ。直訳すると「意味による画像の分割」で理解しにくいため「画素レベルの分割」と訳したが画像を見て頂くのが手っ取り早い。

2020年2月追記：Open ImageV6データセットの登場の際には~~「Semantic image segmentation」は「Instance segmentation」という表記になっており、後者の方が主流の呼び方になっていると思います。~~

2020年7月追記：すいません、こちら間違っていました。「Semantic image segmentation」と「Instance segmentation」は別物です。

「Instance segmentation」は「実体のセグメンテーション」であり、実体を区別します。↓のbounding box-level segmentationも実体を区別しているので「Instance segmentation」の一種になります。しかし、↓のSemantic image segmentationを見ての通り、Semantic segmentationは個々の実体を区別せず「人が写っている画素」であるかどうかのみを判別します。

この辺りは「Panoptic-DeepLab:総括的に風景を理解する新手法(1/2)」に詳しいです。

１）bounding box-level segmentation（画像内の実体を四角形の境界単位で認識）

２）Semantic image segmentation（画像の物体を画素単位で意味を理解して認識）

２）は、人が写っている部分を画素単位で切り分けてできている。つまり、物体認識は

画像を大まかに境界ボックス単位に分割し「境界ボックス単位で物体認識」
↓
画像に写っている物体の意味や本質を理解して「セマンティックに物体認識」

と進化しつつある。人工知能にセマンティック、つまり「意味や本質」を理解させる事はトレンドなので今後もセマンティック～と言う新しいフレーズを目にする事は増えるのだろう。

検索エンジンも同様にセマンティックを意識するように進化してきた。例えば、昔は単語レベルでの検索であったため、「猫が帽子を被った画像」を探すためには「猫帽子」と単語を区切って検索してやらなければいけなかった。それゆえ、場合によっては「猫が帽子の上に乗っている画像」など、望んでいる写真と違う写真が検索されてしまう事があった。

しかし、最近では「猫が帽子を被った画像」と入力すればそれをそのまま検索出来るようになっている。これは検索エンジンが入力された文章のセマンティックを意識して検索するように進化したからである。セマンティック検索とは入力された単語の有無で検索するのでなく、入力された単語の文脈上の意味や検索者の意図を理解して検索を行う技術であり、まだまだ発展途上な技術である。

この度、Googleは、セマンティック検索を体験するためのWebアプリ２つと開発者向けの学習モデルを公開した。

１）Talk to Books
署名や著者ではなく、疑問文で本を検索できる検索エンジン

例：
「what is alternative data?」
（オルタナティブデータとは何ですか？）

答：
「Data about data. That is the textbook definition of Metadata.
from Building and Maintaining a Data Warehouse
データについてのデータです。それがメタデータの教科書による定義です。
書籍「データウェアハウスの構築とメンテ」より引用

このように質問に関連づけられた記述を持つ本を検索できる。現時点では必ずしも１００点満点の回答を得られるわけではないがなかなかに高性能。

２）Semantris
テトリスをもじった名前の単語連想ゲームゲーム、セマントリス。テトリスのようにどんどん上から単語が降ってくるゲームと上海のようにパズルを解いていくゲームの２種類。テトリスタイプだと

・一番上のハイライトされた「Camera」を連想させる単語を入力する。
・入力された単語に最も意味が近い順に単語に単語群が並びなおされる。
・ハイライトされた単語が関連語順で４位以内に来たら単語を消去でき得点

非ネィティブだと関連する単語の連想に加えて翻訳作業も脳に発生するので特にテトリスタイプだと中々手ごわい。出てくる単語をTOEICなり大学受験用単語にしたらそのまま学習アプリとして使えそうな出来栄え。