1.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(5/5)まとめ
・本稿ではGoogleの責任あるAIの原則を改めて解説し2022年のテーマを総括して振り返る
・個々のテーマは各事業担当者がそれぞれ別記事で2022年の振り返りを後日投稿する計画
・AIはGoogleの「世界中の情報を整理し、普遍的にアクセス可能で有用なものにする」という使命を強化/変革
2.Google AIの2022年の振り返り~責任あるAIとまとめ編~
以下、ai.googleblog.comより「Google Research, 2022 & Beyond: Language, Vision and Generative Models」の意訳です。元記事の投稿は2023年1月18日、Google AIのトップのJeff DeanがGoogle Research communityを代表しての執筆です。
本稿で一旦終わりかと思っていたら、責任あるAIなどの各テーマは各事業担当者がそれぞれ別記事で2022年の振り返りを投稿するという事のようで、一連のタイトルを変更しました。
責任あるAIのスタンスは崇高な理念と思うのですが、昨今のGAFAのレイオフや後発企業が世の中への影響や摩擦を恐れずに様々なAIをリリースしているのを見ていると、どこまでこの原則を堅持できるかは勝負所な気がしますね。
人間が出来ない事や人間にとって難しい事をAIがサポートしてくれるのが理想の世界と思っていますが、人間がやっている作業/仕事をAIで代替して人件費を浮かすのが手っ取り早く儲かるので、後者に目線が行きがちですよね。
死すべき定めの人の子の身としては、人間が弱っている時、辛い時、死にそうな時にこそ、側にいて支えてくれるようなAIであって欲しいと思うのです。
アイキャッチ画像はstable diffusionのカスタムモデルによる生成
責任あるAI(Responsible AI)
AIは責任を持って探求されなければなりません。
強力な言語モデルは、多くのタスクで人々を助けることができますが、注意を払わないと、誤った情報や有害なテキストを生成することもあります。生成モデルは、人々の想像力を新しく驚くべき方法で発揮させる、驚くべき創造的な目的のために使用することができますが、有害な画像や、起こってもいない出来事をリアルに見せる画像を作成するために使用することも可能です。
これらは、取り組むべき複雑なテーマです。機械学習(ML:Machine Learning)と人工知能(AI:Artificial Intelligence)のリーダーは、最先端の技術だけでなく、責任と実装に対する最先端のアプローチでもリードする必要があります。
2018年、私達は有益な利用、ユーザー、安全、危害の回避を何よりも優先するAI原則(AI Principles)を明示した最初の企業のひとつであり、モデルカードやデータカードの使用など、多くのベストプラクティスを開拓してきました。
紙の上の言葉だけでなく、私たちはAI原則を実践しています。
テキストから画像への生成モデル、翻訳におけるジェンダーバイアスを回避する技術、より包括的で公平な肌の色合いに関するケーススタディなど、最新のAI原則の進捗アップデートは2022 AI Principles Progress UpdateのPDFでご覧いただけます。
同様のアップデートは、2021年、2020年、2019年にも発表されています。私たちは、AIを大胆かつ責任を持って追求するために、ユーザー、他の研究者、影響を受けるコミュニティ、そして私たちの経験から学び続けています。
私たちの責任あるAIのアプローチには、次のようなものがあります。
・有用で、ユーザーと社会に利益をもたらすAIに焦点を当てます。
・研究の優先順位から製品化、用途に至るまで、(有益な用途と有害性の回避を土台とするく)私たちのAI原則を、プロセス、ガバナンスに意識的に適用し、私たちのAI関連作業に関するガイドとします。
・研究の厳密さ、査読、状態の調査、利用可能にする事や外部化への責任あるアプローチにより、科学的手法をAIの研究開発に適用します。
・社会科学者、倫理学者、社会技術的な専門知識を持つ他のチームを含む、学際的な専門家と協力します。
・開発者、ユーザー、政府、影響を受けるコミュニティの代表者からのフィードバックに耳を傾け、学び、改善します。
・AI研究とアプリケーション開発について、用途を含む定期的な見直し実施します。私たちが学んだことについて、透明性を提供します。
・現在および将来の懸念事項やリスク(安全性、偏見、毒性など)を把握し、課題やリスクが顕在化した場合にそれに対応するための対処、研究、革新を行います。
・イノベーションを促進し、リスクを軽減しながらAIのメリットを最大化する、責任あるガバナンス、説明責任、規制の形成を主導し、支援します。
・ユーザーと社会が、AIとは何か(そして何がAIではないのか)、その可能性からどのような利益を得ることができるかを理解できるようにします。
次回のブログでは、当社のResponsible AIチームのリーダーが、2022年からの取り組みと、今後数年間のこの分野のビジョンについて、より詳しく説明する予定です。
まとめ
私たちは、上記の変革的な進歩に興奮しており、その多くは、何十億ものユーザーにとってGoogle製品をより便利にするために適用されています。
Google検索、Googleアシスタント、Google広告、Googleクラウド、Gmail、Googleマップ、YouTube、ワークスペース、Android、Pixel、Nest、Google翻訳などです。これらの最新の進歩は、実際のユーザー体験に導入され、私たちとコンピュータの関わり方を劇的に変化させることになるでしょう。
言語モデルの分野では、私たちが発明したTransformerモデルやsequence-to-sequence学習などの進歩のおかげで、人々は(コンピュータと)自然な会話をすることができ、(コンピュータから)驚くほど良い反応を得ることができるようになりました。
コンピュータビジョンの新しいアプローチのおかげで、コンピュータは人々が2Dではなく3Dで創造し、対話するのを助けることができます。また、生成モデルの新しい進歩により、従来のツール(キーボードやマウスなど)ではできなかったような画像、動画、音声の作成をコンピュータが支援することができるようになりました。
自然言語理解などの進歩と組み合わせることで、コンピュータはあなたが作ろうとしているものを理解し、驚くほど良い結果を実現する手助けをしてくれます。
もうひとつの変化は、マルチモーダルモデルの性能の向上です。私たちは、多くの異なるデータ形式(modalities)を流れるように理解できる単一のモデルを作成できるようになることを目指しています。それぞれのデータ形式が文脈の中で何を表しているかを理解できれば、その文脈の中で異なる様式を生成することができるのです。
この目標に向かって前進していることに、私たちはとても興奮しています。例えば、私たちは、100以上の言語で視覚、言語、質問応答、物体検出のタスクを実行できる統一言語モデルを導入し、様々なベンチマークで最先端の結果を得ています。
将来的には、例えば「この画像をスワヒリ語で説明してください」といったように、より多くの感覚を働かせて、コンピュータに自分の望むことをさせることができるようになります。私たちは、デバイス上のマルチモーダルモデルが、Googleアシスタントとの対話をより自然なものにすることを示しました。また、様々な組み合わせで、自然言語、画像、音声によって制御された画像、動画、音声を生成できるモデルを実証してきました。この分野では、さらにエキサイティングなことが起ころうとしています!
私たちがイノベーションを起こすとき、ユーザーや社会に対して、「AI原則」に基づいてこれらの新しい技術を思慮深く追求し、開発する責任があります。最先端の技術を開発するだけでは不十分であり、安全性を確認した上で世に送り出さなければなりません。
AI の新たな進歩は、コンピュータが人々の作業を支援する新しい方法のエキサイティングな地平線を提示します。Google にとって、その多くは、「世界中の情報を整理し、普遍的にアクセス可能で有用なものにする」という長年の使命を強化または変革するものです。
20年以上経った今でも、この使命は変わらずに大胆であると信じています。
今日、私たちをワクワクさせるのは、こうしたAIの進歩の多くを応用してユーザー体験を強化し、より多くの人が自分の周りの世界をよりよく理解し、より多くのことを成し遂げられるよう支援していることです。
私自身の長年の夢のコンピュータです!
謝辞
Google の研究コミュニティーの皆様、この仕事に貢献していただきありがとうございました!
さらに、この投稿を書くにあたって有益なフィードバックをくれた多くのGoogle社員と、このシリーズの他の投稿に貢献してくれるであろう人々に、特に感謝したいと思います。
Martin Abadi, Ryan Babbush, Vivek Bandyopadhyay, Kendra Byrne, Esmeralda Cardenas, Alison Carroll, Zhifeng Chen, Charina Chou, Lucy Colwell, Greg Corrado, Corinna Cortes, Marian Croak, Tulsee Doshi, Toju Duke, Doug Eck, Sepi Hejazi Moghadam, Pritish Kamath, Julian Kelly, Sanjiv Kumar, Ronit Levavi Morad, Pasin Manurangsi, Yossi Matias, Kathy Meier-Hellstern, Vahab Mirrokni, Hartmut Neven, Adam Paszke, David Patterson, Mangpo Phothilimthana, John Platt, Ben Poole, Tom Small, Vadim Smelyanskiy, Vincent Vanhoucke, 及び Leslie Yeh.
3.2022年のGoogleのAI研究の成果と今後の展望~言語・視覚・生成モデル編~(5/5)関連リンク
1)ai.googleblog.com
Google Research, 2022 & Beyond: Language, Vision and Generative Models
2)arxiv.org
Large Language Models Encode Clinical Knowledge
Deep Unsupervised Learning using Nonequilibrium Thermodynamics
Pixel Recurrent Neural Networks
Neural Discrete Representation Learning
Image Transformer
Vector-quantized Image Modeling with Improved VQGAN
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
3)benanne.github.io
Guidance: a cheat code for diffusion models
4)research.google
Imagen : unprecedented photorealism × deep level of language understanding
Phenaki : Realistic video generation from open-domain textual descriptions
5)google-research.github.io
AudioLM : A Language Modeling Approach to Audio Generation
6)ai.google
2022 AI Principles Progress Update(PDF)