Google LensのGoogle Goバージョン(2/2)

１．Google LensのGoogle Goバージョン(2/2)まとめ

・OCRエンジンの誤読に備えて、文脈やナレッジグラフから手がかりを得て精度を上げている
・翻訳した文章が元の文章のどの部分に該当するかわかるように着色を行う
・カラオケのように、読み上げ中に各単語を画面上で強調表示する工夫も行っている

２．Google GoのLensの工夫

以下、ai.googleblog.comより「Giving Lens New Reading Capabilities in Google Go」の意訳です。元記事は2019年9月4日、Rajan Patelさんによる投稿です。

Google GoのLensで撮影された画像には、署名、手書き文字、文書などが含まれている可能性があるため、追加の課題が多数発生する可能性があります。例えば、文字が紛らわしかったり、文字に独特な癖があったり、画像がぼやけたりすることがあります。これら全ての問題により、OCRエンジンは各単語内のさまざまな文字を誤読する可能性があります。誤りを訂正して単語の精度を向上させるために、Google GoのLensは周囲の単語から文脈を読み取って訂正を試みます。また、ナレッジグラフを使用して「単語が適切な名詞である可能性が高くスペルを修正するべきではない」などの文脈上の手がかりを得ます。

画像内から文章の検出、文字列の方向の識別、文字認識、これらのすべてのステップは、追加の量子化されたロングショートタームメモリ(LTSM)ネットワークを備えた別の畳み込みニューラルネットワーク(CNN)によって実行されます。また、ReCaptchaやGoogleブックスのスキャン画像に至るまで、モデルはさまざまなソースからのデータに基づいてトレーニングされています。

左：認識された文章の周囲に境界ボックスを配置した画像。
この画像からOCRが認識した生の文字列は「Cise is beauti640」です。
右：Google Goのlensは、近くの単語のコンテキストに加えてナレッジグラフを適用することで、「life is beautiful」という単語を正しく認識します。

文章構造を理解
個々の単語が認識された後、Lensはそれらの単語をどのように組み合わせるかを決定する必要があります。

現実の世界で人々が出会う文章は、さまざまな方法でレイアウトされています。たとえば、新聞は、見出し、記事、および広告が行毎にレイアウトされます。一方、バスのスケジュールには、目的地用の列と時間付きの行があります。文章の構造を理解することは人間にとっては非常に簡単な事ですが、コンピューターには認識方法を教える必要があります。LensはCNNを使用して、列などの一貫したテキストブロック、または一貫したスタイルや色の文章を検出します。そして、各ブロック内で、文章の配置、言語、段落の幾何学的関係などの信号を使用して、最終的な読み取り順序を決定します。

文書構造の検出における他の課題の1つは、人々が様々な角度からテキストの写真を撮影することです。これは、境界ボックスの軸が揃っている事を前提とする既製の検出器に立ち戻る事が出来ず、平面の歪みに対処できるようにシステムを一般化する必要があることを意味します。

新聞の一面の段落分割。列の中央に埋め込まれている「News Analysis」の文字列が、文字のスタイルが異なるため、別個に識別されている事に注目してください。

文脈を意識した翻訳
ユーザーに最も役立つ情報を提供するには、翻訳が正確かつ文脈に沿ったものでなければなりません。Lensは、適切な文法と言葉遣いを維持するために、Google翻訳のニューラルマシントランスレーション(NMT)アルゴリズムを使用し、単語ごとに翻訳するのではなく、文全体を一度に翻訳します。

翻訳を最も有用にするためには、元の文章が意図した通りに配置する必要があります。例えば、ATMの操作方法を翻訳する場合、どのボタンがどの操作に対応するかを知ることが重要です。

課題の一つは、翻訳された文章が元の文章よりもはるかに短いまたは長いことがあるという事実と、それを説明することです。

例えば、ドイツ語の文章は英語の文章よりも長くなる傾向があります。違和感なくLensの翻訳を元の文章に重ねて合わせて表示させるめに、Lensは翻訳文を同じ長さの行に再配置し、適切なフォントサイズを選択します。

また、背景と文章は明度が異なり、背景が大部分のスペースを占めると仮定をし、、翻訳文の色と背景色を元の文章と一致させます。

これにより、Lensは各画素が背景部または文章部のどちらを表現するか分類し、２つの領域の平均色をサンプリングするので、翻訳された文章の色合いが元の文章の色合いと一致することを保証します。

文章の読み上げ
Google Goのlensで最も役立つように情報を配信する際の最後の課題は、文章を読み上げることです。高品質な音声は、Google Text-to-Speech(TTS)を使用して生成されます。TTSは、機械学習を適用して、日付、電話番号、住所などの明確なエンティティを検出し、DeepMindのWaveNetに基づいて真に迫った音声を生成します。

これらの読み取り機能は、ディスプレイと組み合わせると、より文脈的で便利になります。Lensは、カラオケのように、読み上げ中に各単語を画面上で強調表示するために、各単語の始まりに印をつけるTTSサービスのタイミングアノテーション機能を利用します。

例えば、ユーザーが様々なボタンの横に様々なラベルが付いたATMの写真を撮るとします。このカラオケ効果により、ユーザーはどのラベルがどのボタンを説明しているのかを知ることができます。また、ユーザーが翻訳中の単語の発音方法を学ぶのに役立つ場合があります。

この先へ
まとめると、Google GoのLensが何百万人もの人々の日常生活にプラスの影響を与えることを期待しています。今後、これらの読み取り機能のさらなる更新に取り組み、OCRをより正確にするために、文章構造の理解(例えば、複数列のテキスト）の改善やインド語の認識などに対応する予定です。

これらの文章の課題に対処しつつ、私達は、機械学習とスマートフォン搭載カメラの組み合わせが、人々が人生を歩むときに役立つ新たな手法を探し続けます。