GoogleのリサーチサイエンティストColin Raffelへのインタビュー(1/2)

１．GoogleのリサーチサイエンティストColin Raffelへのインタビュー(1/2)まとめ

・音楽に関する研究から始めたため、ラベル付きデータを取得する事の困難さを味わった
・そのため、ラベル付きデータの必要性を軽減する研究に関して関心を持つ事になった
・「進歩を成し遂げる可能性が最も高い人があなたであるような研究」に取り組むことが最善

２．Colin Raffelの研究哲学

以下、medium.comより「An interview with Colin Raffel, Research Scientist at Google」の意訳です。元記事の投稿は2020年5月15日、Sayak Paulさんによるインタビュー記事です。

Colin RaffelさんはT5の開発者の一人として知られている方です。哲学や考え方等は中々表に出てこない事なのでこういったインタビュー記事はとても興味深いです。

アイキャッチ画像のクレジットはPhoto by NeONBRAND on Unsplash

本日のインタビューに、コリン・ラッフェル(Colin Raffel)を迎えることができて嬉しいです。コリンは現在、Googleのリサーチサイエンティストとして働いています。Colinの研究の関心は、ラベル付きデータが限られている状況での特に自然言語処理や転移学習など、広い分野にわたっています。

コリンはまた、T5(Transfer Learning with a Unified Text-to-Text Transformer)による転移学習の限界を探る独創的な論文の第一著者の1人でもあります。

コリンの他の研究の中で、私のお気に入りは、半教師有り学習であるFixMatchとMixMatchです。MixMatchの機能拡張に関する研究について詳しく知りたい場合は、ReMixMatchに関する以下のICLR 2020の論文「ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring」を確認してください。過去には、GANの記憶に関する理論的洞察についての彼の研究「Theoretical Insights into Memorization in GANs」も楽しんできました。

以前、コリンはGoogleのAIレジデンシープログラムの対象者として、機械学習の基礎研究に1年以上費やしていました。彼は2020年秋に助教授としてノースカロライナ大学のコンピュータサイエンス学部に加わる予定です。彼の詳細を知り、彼の研究について最新情報を入手するには、Twitterで彼(@colinraffel)をフォローしてください。

Googleのリサーチサイエンティストであるコリン・ラッフェルへのインタビュー

サヤック：こんにちはコリン！このインタビューを受けて頂きありがとうございます。お会いできて光栄です。

コリン：よろしくお願いします！

サヤック：自己紹介から始めて頂いても良いでしょうか？現在の研究の関心は何ですか？研究の際にどんな手法を行っていますか？、などなどです。

コリン：私の現在の研究は、機械学習アルゴリズムをラベル付きデータにあまり依存しないようにすることに焦点を当てています。
これには、教師なし学習、半教師あり学習、転移学習などが含まれます。一般的に、私は現実世界に大きな影響を与える問題を選択するのが好きですが、解決するには工夫と努力も必要です。
限られたラベルから学習する事は、現実世界で実用的意義がある良い具体例です。(ほとんどの人は巨大なラベル付きデータセットを利用できません)。ここには自由で制限のない、じっくり考えるべき興味深い問題がたくさんあります。
また、領域全体(テキスト、画像、音声、音楽など)について研究を行うことも好きです。

サヤック：やっぱりですね！
あなたの研究哲学は実際にあなたの研究を反映していますね。異なる領域間でそれを追求したいという願望もそうですね。そもそも機械学習を始めたきっかけや、現在取り組んでいるサブフィールドへの動機付けとなった事はどんな事なのでしょうか？

コリン：私は博士号を取得する前とその間、主に機械が音楽を理解するのに役立つ(そして人間が音楽を作るのに役立つ)方法を研究していました。これには、曲の自動文字起こしや音楽の拍子の検出などが含まれます。
これらの問題を攻略するための最も有望で強力なツールは、機械学習である事がすぐにわかりました。これにより、最終的に興味の中心となる機械学習手法への関心が高まりました。
音楽から始めたため、ラベル付きデータを取得することの難しさと費用の高さを味わいました。例えば、手作業で音楽を転記するために人間にお金を払うことは非常に高くつきます。
音楽の研究は、他の分野に比べて一般的に資金が不足しています。これは、他の研究分野に比べて収益に繋がる機会が比較的少なく、データの可用性が常に問題になるためです。もちろん、これが当てはまるのは音楽だけではありません。そのため、研究領域全体でラベルの必要性を軽減することに、より興奮しています。

サヤック：研究を始めたとき、どのような課題に直面しましたか？それらをどのように克服しましたか？

コリン：私の博士時代の初期に、計算機能力の向上、データセットのサイズ、正則化の進歩のおかげで、ニューラルネットワークが再び役立つようになりました。私はニューラルネットを音楽研究に適用することに興味がありましたが、コロンビア大学の授業や教授陣はカーネル法を教えていたため、ニューラルネットワークを使用していませんでした。これは多くの独学につながり(例えば、古くなってしまいましたがTheanoの優れたディープラーニングチュートリアルから学んだり)、コロンビアでニューラルネットワークの読書会と一連のセミナーを立ち上げる事に繋がりました。論文を読んだり、人々を招いて講演をお願いすることは、私の大きな助けとなりました。
これとは別に、論文の研究のために実験に利用できるGPUは1つだけでした。私が取り組んでいたいくつかの問題に対する自然な選択は、リカレントニューラルネットワーク(RNN)でしたが、RNNを使用して長い音楽を処理するのは、私のちっぽけなGPUでは遅すぎました。
これにより、完全に並列化可能な計算を使用して、シーケンス内の情報を効果的に集約できるfeed-forward attentionを開発することになりました。

サヤック：「必要は発明の母」と言いますが、全くもって、そうなんですね！
貴方の研究対象は、NLPモデルでの転移学習、半教師あり学習、GANなど、非常に多くの分野にわたっています。どのようにしてこのように多岐にわたる研究しているのですか？つまり、いつ何に取り組むのでしょうか？

コリン：私は、大きな影響を与える研究を行います。つまり、他の方法では解決できない重要な問題を人々が解決するのを助けます。
最近の研究のほとんどは、機械学習を使用すると上手く解決できる多くの問題があり、しかし、標準的な教師あり学習を使用するためには十分なラベル付きデータが不足しているという事実に動機付けられています。これが、私を教師なし学習(GAN)及び半教師あり学習の研究に駆り立てました。
これはまた、研究領域全体に影響を与える可能性のある主要な機械学習手法に集中する切っ掛けとなりました。
更に、私は自分が個人的にそれに取り組む必要、何らかの理由があるような問題を選択しようとします。自分自身が重要な専門知識、洞察、またはその他の優位性を持っているかどうかは関係ありません。
これは単に、機械学習の研究を行う人が非常に多いという実際的な理由によるものです。「進歩を成し遂げる可能性が最も高い人があなたであるような研究」に取り組むことが最善であるということです