Google Research:2022年以降にAIはどのように進化していくか?(3/6)

AI

1.Google Research:2022年以降にAIはどのように進化していくか?(3/6)まとめ

・個人スマホがプライバシーを保ったまま世界中のスマホと共同して学習する事が可能な時代
・世界のデータを使いつつ状況に応じて個人に最適化出来るモデルはもはや社会的存在
・様々なレベルでコンピュータ構成をニューラルコンピューティング用にしていく事が必要

2.個人向けに最適化する機械学習モデル

以下、ai.googleblog.comより「Google Research: Themes from 2021 and Beyond」の意訳です。元記事は2022年1月11日、Jeff Deanさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Michael Held on Unsplash

MLはより個人的、共同的に有益なものになる

MLとシリコンハードウェア(Pixel 6に搭載されたGoogle Tensorプロセッサなど)の革新により、モバイルデバイスが周囲の状況や環境を継続的かつ効率的にセンシングできるようになり、多くの新しい体験が可能になりました。これらの進歩は、アクセシビリティと使いやすさを向上させるとともに、モバイル写真やライブ翻訳などの人気機能にとって重要な計算能力も向上させています。また、最近の技術の進歩は、プライバシー保護を強化しながら、よりカスタマイズされた体験をユーザーに提供できるようになったことも大きな特徴です。

日常生活の記録や芸術的な表現に携帯電話のカメラを利用する人は、これまで以上に増えています。MLを巧みに応用したコンピュテーショナル・フォトグラフィーは、携帯電話のカメラの機能を進化させ続け、使いやすく、性能を向上させ、より高画質な画像を実現しています。

HDR+テクノロジーの向上低照度下での撮影ポートレート撮影への対応、あらゆる肌色に対応するカメラへの取り組みなど、撮影者のイメージや被写体をより忠実に再現するための進化を遂げているのです。

このような写真は、シネマティックフォトノイズやぼかしの低減、マジックイレイサーなど、Googleフォトで利用できるMLベースの強力なツールを使ってさらに改善することができます。


HDR+は、露出が同じだけ不足したフル解像度の生画像を元にします(左)
合成された画像はノイズが減り、ダイナミックレンジが広がるため、最終的に高品質な画像に仕上がります(右)

携帯電話をクリエイティブな表現に使うだけでなく、メッセージングアプリのリアルタイム翻訳や電話に字幕付けをするLive Captionを使って、言語やコミュニケーション手段を超えてリアルタイムに相手とコミュニケーションするために、多くの人が携帯電話を頼りにしています。

音声認識の精度は、自己教師あり学習やnoisy studentのトレーニングなどの技術によって大幅に向上し続けており、訛りのある音声、ノイズの多い環境、音声が重なる環境、多くの言語において顕著な改善を見せています。

音声合成の進歩に基づき、Read Aloudテクノロジーを使ってウェブページや記事を聴くことができるプラットフォームが増え、コミュニケーション手段や言語の壁を越えて情報を利用できるようになりました。

Google翻訳アプリのライブ音声翻訳は、その場で生成される翻訳を安定させることで大幅に改善され、高品質かつ堅牢で責任ある音声直接翻訳は、異なる言語を話す人々とのコミュニケーションにおいてより優れたユーザーエクスペリエンスを提供します。Lyra音声コーデックやより汎用的なSoundStreamオーディオコーデックにおける従来のコーデックアプローチとMLを組み合わせた新しい研究により、より低いビットレートでより忠実な音声、音楽、その他の音の伝達が可能になりました。

Google Duplexの進化により、自動でかかってきた電話を選別する事や保留時にMLエージェントが待機してくれるなど、日常的なやりとりがより自然になってきています。

ユーザーが頻繁に行うであろう短いタスクも、Pixel 6携帯電話では、電話番号や住所などの実体を自動的に選択して簡単にコピー&ペーストできるスマートテキスト選択入力中の文法修正などのツールによって改善されています。

さらに、Screen Attentionは、見ているときにスマホの画面が暗くなるのを防ぎ、視線認識の向上は、アクセシビリティや健康増進のための新しいユースケースを開拓しています。MLは、人々やコミュニティの安全を確保するための新しい手法も可能にしています。例えば、Suspicious Message Alertsはフィッシングの可能性を警告し、Safer Routingは急ブレーキを検知して代替経路を提案します。


最近の研究では、精神的疲労を測定可能な重要なバイオマーカーである視線を認識する機械学習の能力が実証されています。

これらの新しい使い方の基礎となるデータの潜在的な機密性を考えると、デフォルトでプライベートデータとして扱うように設計されていることが不可欠です。

これらの機能の多くは、AndroidのPrivate Compute Core(オープンソースで、オペレーティングシステムの他の部分から分離された安全な環境)の内部で実行されます。

Androidは、Private Compute Coreで処理されるデータが、ユーザーがアクションを起こさない限り、どのアプリケーションにも共有されないようにします。

また、AndroidはPrivate Compute Core内のどの機能もネットワークに直接アクセスできないようにしています。その代わり、機能はオープンソースの小さなAPI群を介してプライベートコンピュートサービスと通信します。プライベートコンピュートサービスは、識別情報を取り除き、連合学習連合分析、プライベート情報検索などのプライバシー技術を利用し、学習を可能にすると同時にプライバシーを確保します。


Federated Reconstructionは、モデルをグローバルパラメータとローカルパラメータに分割して学習する、新しい部分的端末内連合学習技術です。Federated Reconstructionの各の学習は以下の通りです。
(1)サーバは現在のグローバルパラメータgを各ユーザiに送信する。
(2)各ユーザiはgを凍結し、ローカルパラメータliを再構成する。
(3)各ユーザiはliを凍結し、gを更新してgiを生成する。
(4)ユーザのgiを平均して、次の回のグローバルパラメータを生成する。

これらの技術は、コンピューター活用法および操作性を次世代に進化させるために不可欠です。個人的または共同利用する端末は、プライバシーを損なうことなく、世界中から集合させたデータを使ってモデルを学習させたりモデルのトレーニングに貢献することができます。

教師なし連合アプローチを用いる事で、前述した汎用的なモデルが、ますますインテリジェントなシステムとなる可能性があります。

モデルが与えられたタスクや状況に応じて個人に最適化するように微調整しながら学習する事が出来るようになるのですから、より直感的に操作することができます。そのようなモデルはもはや機械というよりも社会的存在(social entity)に近いものです。

このような知的なインターフェースに広く公平にアクセスできるようにするには、センサーに搭載するようなマイクロコンピュータからデータセンターまでのテクノロジー構成を深く変更し、ニューラルコンピューティングを適切にサポートできるようにする必要があります。

3.Google Research:2022年以降にAIはどのように進化していくか?(3/6)関連リンク

1)ai.googleblog.com
Google Research: Themes from 2021 and Beyond

タイトルとURLをコピーしました