カメラの時代:Google Lensの1年間(1/2)

  • 2019.06.20
  • AI
カメラの時代:Google Lensの1年間(1/2)

1.カメラの時代:Google Lensの1年間(1/2)まとめ

・Google Lensを使うとカメラに写した物体が何であるかを検索する事が出来る
・これにより言葉で表現する事が難しいような特徴をカメラで撮影する事で検索できる
・Googleはこのユーザー体験を広めるため、iOS版のGoogle Lensもリリースしている

2.Google Lensで出来る事

以下、www.blog.googleより「The era of the camera: Google Lens, one year in」の意訳です。元記事は2018年12月19日、Aparna Chennapragadaさんによる投稿です。Google Lensは画像認識を使った実用アプリケーションとして興味深いと思っているのですが、AI関連ではあまり話題になっている事を見た事がありません。もしかしたら、著者の方の所属がGoogle Lens and ARチームと言う事でAI関連チームではないからなのかもしれませんが、あまり技術的な話題ではありませんが訳してみました。iOS版がリリースされていたのは知らなかったです。

カメラ:それは自撮りや夕日を撮影するためだけのものではありません。私の最新のカメラの使い方は、崇高なものから平凡なものまで幅広いです。もちろん、休暇中にビーチで撮影した写真、冬休み中の子供の発表会、そして1枚・・・、もしくは10枚の、欠かせないオトボケ顔の自撮り写真があります。

しかし、友人の本棚で見かけた本、洞察に満ちたツイートのスクリーンショット、荷物の追跡番号などもあります。私たちのスマートフォンが携帯が容易になり、ストレージ容量が安くなるにつれて、私たちはより多くの種類の、より多くの写真を撮るようになっています。

私たちはもちろん夕日と自撮りを撮影しています。しかし、人々が撮影する写真の10から15パーセントはレシートと買い物リストのような実用的なものであると言われています。

私にとって、日々の活動を手助けするためにカメラを使うことは人類の根源的なレベルで理にかなっています。私達は視覚的存在です。 – ある推定によると、私たちの脳の皮質にあるニューロンの30パーセントは視覚のためのものです。目を覚ますたびに、私たちは自分の周囲を理解し、あらゆる種類の情報を思い出し、そして私たちの周りの世界を探るために視覚に頼ります。

私たちのカメラの使い方が変わってきているのはこのためだけではありません。私たちのカメラの背後にある技術も進化しています。 ハードウェア、ソフトウェア、そしてAIが進歩し続けているので、私はカメラが写真を撮る以上の事が出来ると信じています。

カメラはあなたが、あなたが見るものを検索し、あなたの周りの世界を閲覧し、そして物事を成し遂げるのを助けるでしょう。そのため、昨年、私達はこの旅の最初のステップとしてGoogle Lensを開始しました。先週、私たちはAndroidとiOSの両方で再設計されたGoogle Lensをリリースし、Lens体験をGoogleアプリを通してiOSユーザーにも提供しました。

私は過去10年間、検索、アシスタント、そしてGoogle Lensを通して、日常生活の中で人々を助けるためにAIを使用する製品を開発してきました。私はカメラが情報の発見と支援のための全く新しい機会を切り開くのを見ています。以下は私達がLensで解決している事のほんの一部です。

グーグルレンズ:あなたが見るものを検索
言葉で説明するのが本当に難しいこともあります。犬の種類を知りたい場合は、以下の犬についてどのように説明しますか。 私の息子は、「とっても可愛い、日焼けした毛皮に白いつぎはぎ」と提案しました。

グーグルレンズを使えば、あなたのカメラがあなたのために仕事をすることができます。


レンズはこの犬を柴犬と識別します。

では、レンズはどのようにしてカメラが捉えた写真を柴犬を表すカードに変換したのでしょうか?ご想像のとおり、答えは機械学習とコンピュータビジョンです。

しかし、機械学習アルゴリズムは、学習用データがもたらす情報以上に優れたものにはなりません。レンズがImage Searchを利用するのはそのためです。「Shiba Inu」を判別するアルゴリズムを訓練する基礎データを得るために、何億もの検索と各検索で発見した何千もの画像を利用します。


Google Imagesは、「Shiba Inu」の検索に多数の結果を返します。

次に、レンズは、Googleのオープンソースの機械学習フレームワークであるTensorFlowを使って、上で見た犬の画像を「Shiba Inu」と「dog」という言葉に結び付けます。

最後に、これらのラベルをGoogleのナレッジグラフと結び付けます。ポップスターから子犬の品種まで、何百億というナレッジグラフがあります。 これは私達が柴犬が犬の品種であることを私達が理解するのを助けます。

もちろん、レンズがいつも正しいとは限りません。

何故、このような誤認識が起こるのでしょうか?

多くの場合、日常生活で見られる身の回りの物体と、コンピュータビジョンモデルをトレーニングするために使用されるWeb上の画像とはかなり異なって見えます。

日常生活ではカメラは様々な角度から、様々な場所に、様々な種類の照明の下で使われます。そして、これらの写真の被写体は常に静止しているわけではありません。カメラマンもいません。これのためレンズが誤認識してしまうのです。

私達はスマートフォンのカメラで撮ったような写真を使ってアルゴリズムをトレーニングすることで、この問題に対処し始めています。

これは私達が解決しなければならない多くの困難なコンピュータサイエンス問題のうちの1つにすぎません。音声認識と同じように、私たちは小規模な試みから始めていますが、基礎研究を進め、より豊富なトレーニングデータに投資しています。

3.カメラの時代:Google Lensの1年間(1/2)関連リンク

1)www.blog.google
The era of the camera: Google Lens, one year in