カメラの時代:Google Lensの1年間(2/2)

入門/解説

1.カメラの時代:Google Lensの1年間(2/2)まとめ

・OCRエンジンによりレシピから材料をコピーして買い物リストに貼り付ける事が可能
・製品ラベルを読む訓練も行われており10億以上の製品を識別する事が可能
・スタイル提案(style suggestion)機能により写したものと似たスタイルを捜す事ができる

2.Google LensのOCRとスタイル提案

以下、www.blog.googleより「The era of the camera: Google Lens, one year in」の意訳です。元記事は2018年12月19日、Aparna Chennapragadaさんによる投稿です。

文字の読み方をカメラに教える
先ほど見たように、時々私たちが興味を持っている対象を言葉で説明する事は難しいです。しかし、言葉がまさに私たちが興味を持っている対象である場合もあります。メニューで見た料理を調べたり、壁に書かれた感動的な名言を保存したり、電話番号を覚えたりしたい時などです。このようなテキストを現実の世界から携帯電話に簡単にコピーして貼り付けることができたらどうでしょうか。

これを可能にするために、私たちはレンズに言葉を読む能力とあなたが見た言葉に基づいて行動を起こす能力を与えました。たとえば、電話を名刺に向けて連絡先に追加したり、レシピから材料をコピーして買い物リストに貼り付けることができます。


グーグルレンズはレシピからテキストをコピーして貼り付けることができます。

レンズに読む事を教えるために、我々は光学式文字認識(OCR:Optical Character Recognition)エンジンを開発し、それをGoogleの検索エンジン用データから得られた言語情報とナレッジグラフ(Knowledge Graph:検索した時にGoogleが概要として表示してくる情報)と組み合わせました。

Google Booksでスキャンした本の情報などを利用し、様々な文字、言語、フォントを使用して機械学習アルゴリズムをトレーニングしました。

時々、文字「o」と数字「0」のように見分ける事が難しい文字があります。これを正確に分別するために、レンズはGoogle検索の文字の綴りや単語の誤りを修正する機能を利用して、最も可能性が高い文字や単語が何かを理解します。

Google 検索が「bannana」が「banana」の綴りミスである事を認識可能なのと同じように、レンズは「c00kie」が「cookie」の可能性が高い事を推測することができます。もちろん、あなたが90年代のl33t h4ck3r(訳注:Elite Hackerの意。日本で言えば、女子高生のギャル文字みたいなもの。「工└|─├ノヽッヵ─⊇ゎレヽ」)でない限り。

私達は他の用途にもこのOCRエンジンを使っており、例えば、製品ラベルを読む事ができます。レンズは現在、初回リリース時にカバーしていた数の4倍、10億以上の製品を識別することができます。

好奇心を満たすツールとしてのカメラ
かわいい子犬の犬種を調べたり、レシピを保存したりしようとしている時は、何を検索、もしくは実行したいのかがわかっています。しかし時々私達は答えや行動ではなく、靴やジュエリーなどの特定のスタイルやデザインを探したい事があります。スタイルは言葉で表現するのがさらに困難です。 だからこそ、私たちはカメラ、つまり視覚的な入力が、ここで強力になると考えています。

レンズのスタイル検索機能を使用し、カメラを衣装や家の装飾品に向けることで、スタイルが似ているアイテムを探す事ができるのです。そのため、例えば、友人が素敵なランプを使っていた場合、レンズは製品レビューなどの便利な情報とともに、似たようなデザインのランプを表示できます。


レンズはスタイル提案(style suggestion)機能を提供します。

10年前、私はGoogleでビジュアル検索の可能性に夢中なハツラツとしたプロダクトマネージャとして働き始めました。しかし、技術の進歩は留まりませんでした。現在、物事は変わり始めています。機械学習とコンピューターによる写真撮影技術により、Pixel 3は昼夜を問わず素晴らしい写真を撮影できます。

深層学習アルゴリズムは、網膜写真から糖尿病性網膜症の徴候を検出する技術が有望であることを示しています。コンピュータビジョンは今、私達のデバイスが世界と、世界中の物事をはるかに正確に理解する事を可能にし始めています。

将来を見据えると、私たちはコンピューティングの新しい段階に入っていると思います。

人工知能と機械学習の日進月歩の息をのむような早い進化、携帯電話の普及のおかげでより安価でより強力なハードウェア、全てが一度にまとまってやってきました。何十億もの人々が自分のカメラを使って人生の瞬間、些細な日常の瞬間から一生の記念までをブックマークしています。

コンピュータが人間のように物事を見始めると、カメラは私たちの周りの世界への強力で直感的なインターフェースになるでしょう。

質問があるところに答えを正しく表示するAIファインダーは、私たちが歩いている道に道案内を重ねたり、店頭で探している商品をハイライトしたり、外国の街で目の前の単語を即座に翻訳したりする事ができます。カメラを向けるだけで、請求書の支払い、パーキングメーターへの入力、および身の回りの事実についての詳細を知ることができるのです。

一言で言えば、カメラは私達にすべての超人的なビジョンを与える事ができるのです。

 

3.カメラの時代:Google Lensの1年間(2/2)関連リンク

1)www.blog.google
The era of the camera: Google Lens, one year in

コメント

タイトルとURLをコピーしました