Google LensのGoogle Goバージョン(1/2)

１．Google LensのGoogle Goバージョン(1/2)まとめ

・Google Lensは読み書きに困難を感じている世界の8億人の人々を手助けできる潜在能力がある
・しかし、従来のGoogle Lensはある程度機能が高いスマートフォン上で動く事が前提
・この度、基本的なスペックのスマートフォンでも動作するようなGoogle Go版のGoogle Lensが発表

２．Google Goとは？

以下、ai.googleblog.comより「Giving Lens New Reading Capabilities in Google Go」の意訳です。元記事は2019年9月4日、Rajan Patelさんによる投稿です。

世界中で何百万人もの人々が初めてインターネットを経験していますが、その中には、約8億人の読み書きできない人、または住んでいる都市で話されている主要言語を話せない人が多く含まれています。

スマートフォン搭載カメラを使ったツールとして、Google Lensは文字を読む事やその他の言語ベースの課題に苦しんでいる人々を支援する大きな可能性を秘めています。Lensは、コンピュータービジョン、機械学習、Googleナレッジグラフを使用して、人々が現実世界で目にするものを視覚的に検索対象とする事を可能にします。カメラに写した植物や動物などの種別を識別したり、現実世界のテキストをコピーしてスマートフォンに貼り付けたりする事ができるのです。

しかし、Google Lensが最大限の人々を支援できるようにするためには、最も基本的な、スペックがあまり高くないエントリーレベルのスマートフォンでも動作できるような特別なバージョンを作成する必要がありました。

そのため、Google I/O 2019では、Google Go(訳注：最近、Googleは機能を限定して軽量化した基本的なアプリ群をGoogle Goとして発表しています)専用に設計された新しいバージョンのLensを発表しました。これは、初心者用の入門レベルの機器でも動作する検索アプリで、読む事やその他の言葉関連の課題に直面する人々を支援するために設計された新しい機能セットが含まれます。

ユーザーが読みたい文章をカメラに向けると、Google GoのLensは文章を翻訳して読み上げることができます。読みながら各単語を強調表示して、ユーザーがフォローできるようにする事さえできます。これらの機能を自分で試してみたい場合は、Google GoのLensを介して本日より利用できます。Google Goは当初Android Goデバイスと一部の地域のGoogle Playストアでのみ利用可能でしたが、最近、世界中のGoogle Playストアで利用できるようになりました。

これらの読み取り機能を実現するには、LensのGoogle Goバージョンが様々なデバイスで高品質な画像を撮影し、文章を認識し、文章の構造を理解し、文脈に沿って翻訳し、最後に音声として単語と重ね合わせて読み上げる必要があります。

画像の撮影
Android Goを実行するようなエントリーレベルの機器で画像を撮影する際には、様々なデバイスで動作する必要があるため、注意が必要です。これらの多くのデバイスは、主要な携帯電話よりも性能に制約があります。

Google GoのLensを最小限の遅延で高品質の画像を確実に撮影できるユニバーサルツールとするため、CameraXと呼ばれる新しいAndroidサポートライブラリを早期採用しました。Android開発者向けのライブラリ、ツール、およびガイダンススイートであるJetpackで利用可能なCameraXは、Android Camera2 APIの抽象化レイヤーであり、デバイス互換性の問題を解決してくれるため、開発者は独自のデバイス固有のコードを書く必要がありません。

撮影時の遅延とパフォーマンスのバランスをとるために、CameraXには2種類の撮影方法を実装しています。高性能なハイエンドスマートフォンは、連続する高解像度フレームを保持できるほど十分強力であるため、瞬間的に連続撮影し、その中から画像を選択する事が出来るようにしています。

それほどハイエンドではないデバイスでは、CPU性能が低く連続したフレームを処理するとカメラの遅延が発生する可能性があります。従って、ユーザーが撮影ボタンをタップしたときにフレームを処理して、オンデマンドで高解像度画像を生成します。

文章の認識
Google GoのLensが画像を撮影した後、単語、文、段落を構成する形状と文字を理解する必要があります。これを行うために、画像は縮小され、認識処理が実行されるレンズサーバーに転送されます。次に、光学式文字認識(OCR:Optical Character Recognition)が適用されます。これは、領域提案ネットワーク(region proposal network)を使用して、テキスト認識用に行単位にまとめ上げる事が出来るように、文字レベルの境界ボックスを検出します。

これらの文字ボックスを単語にまとめ上げることは、連続した2段階のプロセスです。最初のステップは、ハフ変換(Hough Transform)を適用することです。これは、テキストが平行に配置分かれて、つまり行単位で分散されることを前提としています。2番目のステップでは、テキストフロー(Text Flow)を使用します。テキストフローは、検出された文字ボックスの最短経路となるグラフを見つけることにより、曲線上に配置されているテキストを追跡します。これにより、様々な配置パターンのテキスト、直線形状、曲線形状、または混合であっても、識別および処理できるようになります。

３．Google LensをGoogle Goバージョン(1/2)関連リンク

１）ai.googleblog.com
Giving Lens New Reading Capabilities in Google Go