1.2022年のGoogleのAI研究の成果と今後の展望~研究コミュニティへの参加編~(2/2)まとめ
・Googleは研究コミュニティと協力的なエコシステムを構築するためにオープンソースでコードやデータセットを公開している
・2022年に公開したデータセットの一部だけでも36以上、ツール群なども5を超えておりオープンリサーチへの貢献度は大きい
・製品やエンジニアリングを進歩させる研究に投資する場合でもユーザーに提供できるものの燃料になることを認識している
2.オープンソースにしたデータセットとツール一覧
以下、ai.googleblog.comより「Google Research, 2022 & beyond: Research community engagement」の意訳です。元記事の投稿は2023年2月28日、 Leslie Yehさんによる投稿です。
アイキャッチ画像はstable diffusionのカスタムモデルによる生成
データセットやツールのオープンソース化
より広範な研究コミュニティとの関わりは、より協力的なエコシステムを構築するための私たちの努力の中核をなすものです。
私たちは、オープンソースのコードやデータセットを公開することで、MLや関連研究の全般的な発展を支援しています。私たちは、2022年に自然言語処理や視覚などのオープンソースデータセットを増やし続け、Google Dataset Searchで利用可能なデータセットのグローバルインデックスを拡張しました。
また、データコモンズを通じてサステナビリティデータを継続的に公開し、他の人が研究に利用できるよう呼びかけました。2022年に公開したデータセットやツールの一部を以下に掲載します。
2022年に公開したデータセットの一部
データセット | 説明 |
Auto-Arborist | 都市内の樹木モニタリングのモデル開発に役立つ、320属以上、260万本の樹木からなるマルチビュー都市林分類データセット |
Bazel GitHub Metrics | bazelbuildのリポジトリからリリースされた成果物のGitHubダウンロード数を示すデータセット |
BC-Z demonstration | ロボットアームが100種類の操作タスクを実行する様子を撮影したエピソード。各エピソードのデータには、RGBビデオ、ロボットのエンドエフェクタの位置、自然言語embeddingが含まれます。 |
BEGIN V2 | 対話システムや自然言語生成指標の評価用ベンチマークデータセット。 |
CLSE: Corpus of Linguistically Significant Entities | 言語専門家が注釈を付けた名前付きエンティティのデータセット。34の言語と74の意味タイプを含み、航空券の発券からビデオゲームまで様々なアプリケーションをサポートします。 |
CocoChorales | 13の楽器による4部構成のコラールを含む1,400時間以上の混合音声からなるデータセットで、すべてリアルなサウンドの生成モデルで合成されています。 |
Crossmodal-3600 | 36ヶ国語で書かれたキャプションを持つ3,600枚の画像からなる地理的に多様なデータセット。 |
CVSS: A Massively Multilingual Speech-to-Speech Translation Corpus | 21言語から英語への2,657時間の音声翻訳文ペアを含む音声ベースの共通Speech-to-Speech翻訳コーパス |
DSTC11 Challenge Task | ユーザの意図を理解するのに役立つ特定の情報(slot values)をユーザーの発話から抽出できるか否かで、タスク指向の対話システムをエンドツーエンドで評価するチャレンジデータセット |
EditBench | テキストガイド付き画像編集のための包括的な診断・評価用データセット |
Few-shot Regional Machine Translation | FRMTは、Wikipediaから翻訳されたen-ptとen-zhのbitxtsを、非英語圏の2つの言語(pt-BRとpt-pt、zh-CNとzh-TW)で表現した少数ショット能力の評価データセットです。 |
Google Patent Phrase Similarity | 特許の技術用語に焦点を当てた、人間の評価による文脈的なフレーズ間のマッチングデータセットです。 |
Hinglish-TOP | Hinglish-TOPは、人間によって注釈付けされた10,000のエントリと、論文で紹介したCST5オーグメンテーション技術を使って生成された170,000の発話を含む、最大のコードスイッチされた意味解析データセットです。 |
ImPaKT | ImPaKT C4コーパスのショッピングWebページ2,489文に対する意味解析の注釈が含まれるデータセット。3,719の含意関係表現、6,117の型付けされ要約された属性の注釈に相当します。 |
InFormal | 4つのインド系言語に対する形式的なスタイル変換データセット。文のペアとそれに対応するゴールドラベルで構成され、よりフォーマルで意味的な類似性を識別します。 |
MAVERICS | Visual Question Answeringの画像キャプションから作成された、テスト専用の視覚的質問回答データセット群で、質問回答の検証や手動による検証が行われています。 |
MetaPose | Human36Mデータセットのサブセットに対してMetaPoseモデルで予測された人間の3Dポーズとカメラ推定値、およびこれらの結果をゼロから再現するために必要な入力ファイルを含むデータセットです。 |
MGnify proteins | 2.4B配列のタンパク質データベースで、アノテーションが掲載されています。 |
MiQA: Metaphorical Inference Questions and Answers | MiQAは、言語モデルが従来のメタファーを使って推論する能力を評価するものです。メタファー検出とコモンセンス推論という、これまで孤立していたトピックを1つのタスクに統合し、リテラルとメタファーのレジスタを選択することで推論を行うようモデルに要求しています。 |
MT-Opt | 実際のロボットの艦隊で収集されたタスクエピソードのデータセットで、ステップとエピソードを表現するためにRLDSフォーマットに従っています。 |
MultiBERTs Predictions on Winogender | 文中の 1 つの代名詞の性別のみが異なる最小限の文のペアのデータセットであるWinogenderを使ったBERTの推論結果。いくつかの異なる処置を行う前と後。 |
Natural Language Understanding Uncertainty Evaluation | NaLUEは、CLINC150、Banks77、HWU64の3つの大規模NLU(自然言語理解)コーパスを再ラベル化して集約したものです。18の業界(verticals)、77の領域(domains)、260の目的やアクション(intents)にまたがる50,000の発話が含まれています。 |
NewsStories | 一般に公開されているニュース記事と、それに関連する画像や動画へのURLリンク集です。 |
Open Images V7 | Open Images V7は、Open Imagesデータセットを拡張し、5.8kクラスのローカライズ情報を提供する新しいポイントレベルのラベル注釈と、より良いデータ探索のための新しいオールインワン可視化ツールを提供します。 |
Pfam-NUniProt2 | 680万件の新しいタンパク質配列アノテーションのセットです。 |
Re-contextualizing Fairness in NLP for India | インドにおける地域と宗教に基づく社会的ステレオタイプのデータセット。”Re-contextualizing Fairness in NLP” 論文の結果を再現するためのアイデンティティ用語のリストとテンプレートが含まれています。 |
Scanned Objects | ロボットシミュレーションや合成知覚の研究に使用するために3Dスキャンされた1,000個の一般的な家庭用品を含むデータセットです。 |
Specialized Rater Pools | このデータセットは、自称アイデンティティの異なる注釈作業者が毒性について異なる解釈をするかどうかを理解することを目的とした研究によるものです。アフリカ系アメリカ人、LGBTQ、またはそのどちらでもないことを自認する評価者の一群から、25,500件のコメントの毒性注釈を集約せずに個々のデータとして収録しています。 |
UGIF | スマートフォンでステップバイステップのタスクを完了させるための、多言語、マルチモーダルUIに基づいたデータセットです。 |
UniProt Protein Names | アミノ酸配列から予測される49,000,000のタンパク質名注釈のデータリリース。 |
upwelling irradiance from GOES-16 | 気候研究者は、4年間の外来長波放射と反射短波放射のデータを使って、航空機の結露跡など、重要な気候変動要因を分析することができます。 |
UserLibri | serLibriデータセットは、既存のLibriSpeechデータセットを、各ユーザーの音声と原稿をペアにし、領域にマッチングしたテキストのみのデータからなる個別の「ユーザー」データセットに再編成したものです。このデータセットは、音声パーソナライゼーションや他の言語処理分野の研究に利用することができます。 |
VideoCC | ビデオ-テキスト機械学習モデルを学習するための(ビデオ-URLと説明文)のペアを含むデータセットです。 |
Wiki-conciseness | ウィキペディアの2,000の文章を簡潔に書き換えるための、手動でキュレーションした評価セット(英語) |
Wikipedia Translated Clusters | 英語版Wikipediaの記事と、他の10言語の並行バージョンの紹介と、英語への機械翻訳。また、NLI(自然言語推論)モデルで識別するために、英語版に対する合成の破損も含まれています。 |
Workload Traces 2022 | システム設計者が倉庫規模のコンピューティングワークロードをより理解し、フロントエンドやデータアクセスのボトルネックに対する新しいソリューションを開発することを目的としたトレースによるデータセットです。 |
2022年に公開したツールの一部
Differential Privacy Open Source Library | Differential Privacyに基づく分析技術を開発者が使用できるようにするためのオープンソースライブラリです。 |
Mood Board Search | アーティスト、写真家、画像研究者との共同研究の成果で、MLによって画像データセットの主観的な概念を視覚的に探索することができることを実証しています。 |
Project Relate | Androidのベータ版アプリで、MLを使用して、標準的でない話し方をする人の声を聞くことを支援します。 |
TensorStore | TensorStoreは、n次元データの保存と操作のために設計されたオープンソースのC++およびPythonライブラリで、大規模データセットの管理と処理の改善を通じて、科学計算における主要な工学的課題に対処できます。 |
The Data Cards Playbook | データセットドキュメントの透明性のためのツールキット。 |
結論
研究は、増幅器であり、加速器であり、実現器です。私たちは、多くの素晴らしい人々とパートナーシップを組み、人類のために研究を活用できることに感謝しています。
私たちは、製品やエンジニアリングを進歩させる研究に投資する場合でも、最終的には、それが私たちのユーザーに提供できるものの燃料になることを認識しています。私たちは、より多くのパートナーが私たちと関わり、AIが世界にもたらす恩恵を最大化することを歓迎します。
謝辞
世界中の学術機関、大学、NGO、研究機関など、多くの研究パートナーの皆様には、刺激的な研究活動において Google と継続的に関わり、協力していただいていることに感謝いたします。
Googleの研究チームやコミュニティ、研究パートナーシップ、教育、政策チームなど、GoogIe内の多くのチームがこの仕事を可能にしてくれています。最後に、この記事の作成に際して有益なフィードバックをくださった以下の方を含む皆さん感謝したいです。Sepi Hejazi Moghadam, Jill Alvidrez, Melanie Saldaña, Ashwani Sharma, Adriana Budura Skobeltsyn, Aimin Zhu, Michelle Hurtado, Salil Banerjee 及び Esmeralda Cardenas。
3.2022年のGoogleのAI研究の成果と今後の展望~研究コミュニティへの参加編~(2/2)関連リンク
1)ai.googleblog.com
Google Research, 2022 & beyond: Research community engagement