Google AI Residency Programの第三期のハイライト

１．Google AI Residency Programの第三期のハイライトまとめ

・Google AI Residency Programの第三期生の成果の発表、論文以外にも幅広い活動を行った
・第五期の募集として2020 Google AIレジデンシープログラムの申し込みも開始されている
・出願順に候補者が検討されるため、応募を考えている場合は早めの申し込みが吉

２．Google AI Residency Programの第三期の成果

以下、ai.googleblog.comより「Highlights from the 3rd Cohort of the Google AI Residency Program」の意訳です。元記事は2019年11月7日、Katie Meckleyさんによる投稿です。

今秋、Google AI Residency Programの第三期生の成功が目立ちました。2016年にカリフォルニア州マウンテンビューで27名を対象に開始された12か月のプログラムは、世界中の9つの地域で100人近くを対象にするプログラムに成長しました。プログラムの参加者は、博士課程、学界、非営利団体、及び業界で大きな成功を収めています。また、多くがフルタイムのGoogle研究者になっています。

本プログラムは、機械知覚、アルゴリズムと最適化、言語理解、ヘルスケアなどの幅広い研究分野で進歩を遂げ、これまでで最も成功したものでした。以下は、今年の卒業生による革新的なプロジェクトの一部です。

１）大規模な多言語ニューラル機械翻訳モデルでのクロスリンガル転送に関する研究

高リソース言語と低リソース言語の両方の翻訳品質を大幅に改善するために、100以上の言語から数十億の文のペアについてトレーニングを行いました。

特徴表現の類似性に基づいた言語のクラスタリング。言語の特徴表現の類似性に従ってクラスター化されており、言語ファミリによって色分けされています。

２）フォント生成の際にデザイナーを支援するスケーラブルベクターグラフィックス(SVG:Scalable Vector Graphics)の生成モデル

上段：アイコンを画素レベルで表示(上段右端、この場合は６)するケースと異なり、SVGによる表示(左端、中央)は拡大縮小の影響を受けません。下段：SVGを直接操作する事により、フォントアーティストはすばやく直感的にデザインを行う事ができます。

(3)矛盾と多様性(discrepancy divergence)を利用してGANを学習。損失関数と仮説セットの両方を考慮して、理論的な学習保証を提供する手法です。

より多くのジェネレーターをDGANのアンサンブルに追加すると、実際の分布の特性がよりよくカバーされます。左から順に、1つのジェネレーター、5つのジェネレーター、10のジェネレーターによる結果です。

(4)深層生成モデルに尤度比(likelihood ratio)を使う手法
交絡背景統計(confounding background statistics)を効果的に修正して、分類外(OOD:out-of-distribution)データ検出を改善する事と、ゲノミクスにおけるOOD検出のための新しいベンチマークデータセットを開発

左：Fashion-MNISTの各画素の対数化した尤度(log-likelihood)
右：Fashion-MNISTの各画素の対数化した尤度比(log likelihood-ratio)
対数化した尤度は「背景部分」の画素の影響を強く受けていますが、尤度比は「セマンティックな画素(訳注：意味を持つ画素、つまり洋服部分)に焦点を合わせているため、分類外データの検出に適しています。

訳注：「交絡」とは分類時に意味をなさない部分の事です。上の事例でいえば、その洋服が男物か女物かを判断する際には背景部分は意味を持たないですが、面積としては大きな部分を占めるので誤った分類をしてしまう原因となる可能性があります。しかし、尤度比を使ってやることでこの影響を効果的に修正する事ができます、と言うお話と思います。

(5)ラベルのスムージングが役立つケースの研究
予測のブレ(キャリブレーション)への影響、最後から2番目の層によって学習された表現、知識蒸留(knowledge distillation)の有効性に焦点を当てています。

CIFAR100の中に存在する３つのクラスの特徴表現をクラスタリングして2D投影した図
左：ラベルスムージングを使用しない場合、各クラスタに属するデータのまとまりは拡大します。
右：ラベルスムージングを使用すると各データは他のクラスのクラスタから等しく離れるようになり、クラスタ内のばらつきとクラスタ間の類似構造が弱まります。

AI Residencyの皆さんの成功は、学術出版に留まりません。彼らの成果は次のとおりです。

・理論物理学と深層学習の専門家を集めてワークショップを開催し、物理学の観点から深層学習の理論に光を当てる方法を探求しました。

・Queer in AIの設立(訳注：クィアは性的少数者全体を示す用語。肯定的な意味で使われる)クィア研究者のコミュニティを育成し、AI/MLでクィアの問題に対する意識を高めるための組織です。

・ディープラーニングを使用して自然言語処理を行う実践的なTensorflowチュートリアルの作成

・TensorFlowベースのオープンソースフレームワークであるAdaNetでニューラルネットアーキテクチャを自動的に探索

・初のAIを搭載したDoodle(訳注：何かの記念日に稀に変わるGoogleのロゴ)の背後に使われたモデルであるCoconetを開発しています。これは有名なドイツの作曲家で音楽家のヨハン・セバスチャン・バッハを称えるために作成されました。

また、次のResidencyプログラムが始まります。対象者は12か月間ホストされ、オプションで最大18か月延長できます！このエキサイティングな変更は、プログラムの成長と規模の拡大に伴い、プログラム全体の経験と居住者の成果を改善する取り組みの一環としてもたらされました。第五期として参加する事に興味がある場合は、2020 Google AIレジデンシープログラムの申し込みが公開されています。

応募方法の詳細については、careers.google.comの申し込みページをご覧ください。出願順に候補者を検討するため、できるだけ早く申請書を提出してください。より多くの居住者のプロフィール、過去の居住者の出版物、ブログの投稿、ストーリーについては、ai.googleのairesidencyページをご覧ください。来年の皆さんが私たちをどこに連れて行ってくれるのかを楽しみにしています。世界中で活躍する研究チームに参加することを検討してください。