Google Research：2022年以降にAIはどのように進化していくか？(6/6)

１．Google Research：2022年以降にAIはどのように進化していくか？(6/6)まとめ

・MLおよび関連分野の研究の全般的な進歩のためにオープンデータセットも拡充
・コンピューティング研究を推進するため会議や資金支援でコミュニティを支援
・本稿に記載した以外にも２４の分野において世界中に劇的なインパクトを与えている

２．その他の進歩

以下、ai.googleblog.comより「Google Research: Themes from 2021 and Beyond」の意訳です。元記事は2022年1月11日、Jeff Deanさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Michael Held on Unsplash

データセット

MLおよび関連分野の研究の全般的な進歩に対するオープンデータセットの価値を認識し、私たちはオープンソースデータセットと関連するリソースのコレクションを拡大し、Google Dataset Searchのオープンデータセットの索引を拡張し続けています。

今年は、さまざまな研究分野で数多くのデータセットやツールをリリースしています。

DatasetsとTools一覧

AIST++
10ジャンルのダンスモーションをカバーする3Dキーポイント付き画像データセット

AutoFlow 40k
画像と検証済オプティカルフローのペア

C4_200M
文法エラー訂正学習用の2億文の合成データセット

CIFAR-5M
CIFAR-10に類似した約600万枚の合成画像データセット(RGB 32×32 pix)

Crisscrossed Captions
MS-COCOデータセットを使った意味的類似性評価セット

Disfl-QA
情報探索のための文脈上の流暢でない表現を集めたデータセット

Distilled Datasets
CIFAR-10、CIFAR-100、MNIST、Fashion-MNIST、SVHNから抽出された蒸留データセット

EvolvingRL
進化的アルゴリズムにより発見されたTop 1000の最高性能のRLアルゴリズム

GoEmotions
27の感情でラベル付けされた掲示板サイトRedditの58,000のコメントからなる人間による注釈データセット

H01データセット
1.4ペタバイトの人体の大脳皮質の閲覧可能な再構築データ

Know Your Data
データセット内のバイアスを理解するためのツール

Lens Flare
典型的なレンズフレアが含まれる5000枚の高品質なRGB画像

More Inclusive Annotations for People(MIAP)
Open Imagesデータセットの人物クラスのサブセットの境界ボックスのアノテーションを改善

Mostly Basic Python Problems
1000のPythonプログラミング問題、タスクの説明、コードの解答、テストケースを含む

NIH ChestX-ray14 dataset labels
NIH ChestX-ray14 datasetのサブセットに対して専門家がラベル付けしたもの

Open Buildings
アフリカ大陸の大部分をカバーする5億1600万棟の建物の位置と痕跡

Optical Polarization from Curie
ロスと南米チリを結ぶGoogleのキュリー海底ケーブルから得た5GBの光偏波データ

Readability Scroll
約600人の参加者がOneStopEnglish内のテキストを読む際に行ったスクロール操作

RLDS
強化学習のためのエピソードデータの保存、検索、操作のためのツール

Room-Across-Room(RxR)
英語、ヒンディー語、テルグ語の視覚と言語による案内のための多言語データセット

Soft Attributes
映画のタイトル6000セットに英語でソフト属性(「ロマンチック」など)の注釈付けをしたもの

TimeDial
対話における時間的常識推論用に多肢選択式で時間経過を推論するタスクのデータセット

ToTTo
英語による表形式テキストの生成データセット(テキスト生成タスク付き)

Translated Wikipedia Biographies
ニューラル機械翻訳における英語、スペイン語、ドイツ語の性別指定代名詞の誤訳の分析

UI Understanding Data for UIBert
AppSim と RefExp という 2 つの UI 理解タスクのためのデータセット

WikiFact
WikipediaとWikiDataに基づく関係性分類器と事実抽出モデルの学習用データセット

WIT
マルチモーダル対応な多言語MLのためのWikipediaをベースにした画像とテキストのデータセット

研究者コミュニティとの交流

MLとその関連技術をより強固に、包括的に理解するという目標を実現するために、私たちはより広い研究コミュニティと積極的に関わり合っています。

2021年、私たちは750以上の論文を発表し、そのうち600近くは主要な研究会議で発表されました。Google Research は 150 を超えるカンファレンスを後援し、Google の研究者はプログラム委員会の委員を務め、ワークショップやチュートリアルなど、この分野の発展を目指す数多くの活動を開催して直接貢献しました。

今年の大規模な研究会議への Google の貢献については、最近の会議のブログ投稿をご覧ください。

さらに、19のバーチャルワークショップ(2021年量子サマーシンポジウムなど)を開催し、研究分野の新しいアイデアや方向性を生み出し、研究イニシアチブを推進することで、学術コミュニティとの関わりをさらに深めることができました。

2021年、Googleリサーチは、教員や学生へのリサーチプログラムによる$2300万ドル、大学との提携やアウトリーチによる$2000万ドルなど、$5900万ドルの資金で外部研究を直接支援しました。

昨年は、インパクトのある研究を行っている世界中の研究者を支援する新しい資金援助と連携プログラムを導入しました。また、アクセシビリティ、アルゴリズムによる公平性、高等教育とコラボレーション、参加型MLなどの分野で研究を行う34名の教員に、包括研究プログラムを通じて資金を提供しました。

また、研究資金を提供するだけでなく、客員研究員プログラムを通じて、世界中の85人の教員やポスドクを Google に迎え入れ、刺激的なアイデアや共通の研究課題について協力してもらうことにしました。また、74名の非常に優秀な博士課程の学生研究者を選出し、Google PhD Fellowship を授与して研究活動の指導を行いました。

人種的平等への持続的なコミットメントの一環として、コンピュータサイエンス(CS:Computer Science)研究をより包括的にすることは、私たちにとって引き続き最重要課題です。

2021年、私たちはコンピュータ分野の博士号取得者の多様性を高めるための取り組みを引き続き拡大しました。例えば、Google Research が歴史的に疎外されたグループ(HMG:Historically Marginalized Groups)の学生をコンピューティング研究の進路で支援する取り組みである CS Research Mentorship Program(CSRMP)は、590 人のメンティー(その 83% が HMG の一員であると自認)が卒業し、これまでで最大の 194 人の Google社員のメンターによって支援されました！

10月には、2021年explorerCSR集団の一員として、35の教育機関を迎えました。これらの機関に属してコンピューティング研究に従事する学生は3,400人以上になります。

2018年以来、このプログラムは、HMGの学生をCS研究の世界に紹介するために、教員に資金、コミュニティ、評価、Google研究者とのコネクションを提供してきました。2022年には、このプログラムをより多くの海外拠点に拡大する予定です。

また、コンピューティング研究への参加を大規模に拡大するための新しい経路やアプローチを開発・支援する組織への出資や提携の取り組みも継続しました。

ヒスパニック系コンピューティング教育機関連合(CAHSI:Computing Alliance of Hispanic-Serving Institutions)やCMD-IT Diversifying LEAdership in the Professoriate(LEAP)アライアンスなどの提携から、UMBCのMeyerhoff Scholars、コーネル大学のCSMore、ノースイースタン大学の Center for Inclusive Computing、MITのMEnTorEd Opportunities in Research(METEOR)など大学のイニシアティブとの連携にいたるまで、コミュニティベースのアプローチで、隅に追いやられたグループのコンピューター研究における存在感を実質的に向上させようとしています。

その他の研究

この振り返りでは、この1年間に起こった(主に)新しい研究活動に焦点を当てると同時に、今後の展望についても述べるようにしています。

例年の振り返りでは、より包括的な内容になるよう心がけていますが、今回はいくつかのテーマに絞った方が面白いのではないかと思いました。また、これらのテーマに当てはまらない研究分野でも、素晴らしい成果を上げています。もし興味があれば、以下の分野別、あるいは年度別の研究発表をぜひご覧ください。(量子コンピュータに興味があれば、量子チームが最近、2021年の研究の回顧録を書いています)。

・アルゴリズムと理論
・機械知覚
・データ管理
・機械翻訳
・データマイニング
・モバイルシステム
・分散システムと並列計算
・自然言語処理
・経済学と電子商取引
・ネットワーキング
・教育イノベーション
・量子コンピューティング
・科学一般
・責任あるAI
・健康とバイオサイエンス
・ロボット工学
・ハードウェアとアーキテクチャ
・セキュリティ、プライバシー、不正使用防止
・ヒューマンコンピュータインタラクション＆ビジュアライゼーション
・ソフトウェア工学
・情報検索とWeb
・ソフトウェア・システム
・機械知能
・音声処理

まとめ

研究というものは、現実の世界にインパクトを与えるまで数年かかることが多いです。数年前に行われた初期段階の研究が、今ではGoogleの製品や世界中に劇的なインパクトを与えているのです。TPUのようなMLハードウェアアクセラレータや、TensorFlowやJAXのようなソフトウェアフレームワークへの投資は実を結びました。

MLモデルは、Googleの様々な製品や機能において、ますます普及しています。なぜなら、その力と表現の容易さにより、パフォーマンスが重要な環境においてMLモデルの実験と製品化が合理化できるためです。

Seq2Seq、Inception、EfficientNet、Transformerなどのモデルアーキテクチャの研究や、バッチ正規化、蒸留などのアルゴリズム研究は、言語理解、視覚、音声などの分野での進歩を促進しています。

より優れた言語理解や視覚理解、音声認識などの基本的な機能は変革をもたらします。その結果、この種のモデルは、検索、アシスタント、広告、クラウド、Gmail、マップ、YouTube、ワークスペース、Android、Pixel、Nest、翻訳など、Googleの多くの製品でさまざまな問題に対して広く展開されています。

機械学習とコンピュータサイエンスにおいて、今は本当にエキサイティングな時代です。言語、視覚、聴覚を通じて周囲の世界を理解し、対話するコンピュータの能力が向上し続けることで、コンピュータが世の中で人々が何かを成し遂げるのをどのように支援するか、全く新しいフロンティアが開かれるのです。

本記事で紹介した5つのテーマに沿った多くの進歩の例は、長い旅の途中経過にすぎません！

謝辞

Alison Carroll, Alison Lentz, Andrew Carroll, Andrew Tomkins, Avinatan Hassidim, Azalia Mirhoseini, Barak Turovsky, Been Kim, Blaise Aguera y Arcas, Brennan Saeta, Brian Rakowski, Charina Chou, Christian Howard, Claire Cui, Corinna Cortes, Courtney Heldreth, David Patterson, Dipanjan Das, Ed Chi, Eli Collins, Emily Denton, Fernando Pereira, Genevieve Park, Greg Corrado, Ian Tenney, Iz Conroy, James Wexler, Jason Freidenfelds, John Platt, Katherine Chou, Kathy Meier-Hellstern, Kyle Vandenberg, Lauren Wilcox, Lizzie Dorfman, Marian Croak, Martin Abadi, Matthew Flegal, Meredith Morris, Natasha Noy, Negar Saei, Neha Arora, Paul Muret, Paul Natsev, Quoc Le, Ravi Kumar, Rina Panigrahy, Sanjiv Kumar, Sella Nevo, Slav Petrov, Sreenivas Gollapudi, Tom Duerig, Tom Small, Vidhya Navalpakkam, Vincent Vanhoucke, Vinodkumar Prabhakaran, Viren Jain, Yonghui Wu, Yossi Matias, 及び Zoubin Ghahramaniには、この記事に対する有益なフィードバックと貢献をいただきました。
Googleの研究・健康コミュニティ全体に、本作業に対する皆さんの貢献を感謝します。