1.GoogleのリサーチサイエンティストColin Raffelへのインタビュー(1/2)まとめ
・音楽に関する研究から始めたため、ラベル付きデータを取得する事の困難さを味わった
・そのため、ラベル付きデータの必要性を軽減する研究に関して関心を持つ事になった
・「進歩を成し遂げる可能性が最も高い人があなたであるような研究」に取り組むことが最善
2.Colin Raffelの研究哲学
以下、medium.comより「An interview with Colin Raffel, Research Scientist at Google」の意訳です。元記事の投稿は2020年5月15日、Sayak Paulさんによるインタビュー記事です。
Colin RaffelさんはT5の開発者の一人として知られている方です。哲学や考え方等は中々表に出てこない事なのでこういったインタビュー記事はとても興味深いです。
アイキャッチ画像のクレジットはPhoto by NeONBRAND on Unsplash
本日のインタビューに、コリン・ラッフェル(Colin Raffel)を迎えることができて嬉しいです。コリンは現在、Googleのリサーチサイエンティストとして働いています。Colinの研究の関心は、ラベル付きデータが限られている状況での特に自然言語処理や転移学習など、広い分野にわたっています。
コリンはまた、T5(Transfer Learning with a Unified Text-to-Text Transformer)による転移学習の限界を探る独創的な論文の第一著者の1人でもあります。
コリンの他の研究の中で、私のお気に入りは、半教師有り学習であるFixMatchとMixMatchです。MixMatchの機能拡張に関する研究について詳しく知りたい場合は、ReMixMatchに関する以下のICLR 2020の論文「ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring」を確認してください。 過去には、GANの記憶に関する理論的洞察についての彼の研究「Theoretical Insights into Memorization in GANs」も楽しんできました。
以前、コリンはGoogleのAIレジデンシープログラムの対象者として、機械学習の基礎研究に1年以上費やしていました。彼は2020年秋に助教授としてノースカロライナ大学のコンピュータサイエンス学部に加わる予定です。彼の詳細を知り、彼の研究について最新情報を入手するには、Twitterで彼(@colinraffel)をフォローしてください。
Googleのリサーチサイエンティストであるコリン・ラッフェルへのインタビュー
これには、教師なし学習、半教師あり学習、転移学習などが含まれます。一般的に、私は現実世界に大きな影響を与える問題を選択するのが好きですが、解決するには工夫と努力も必要です。
限られたラベルから学習する事は、現実世界で実用的意義がある良い具体例です。(ほとんどの人は巨大なラベル付きデータセットを利用できません)。ここには自由で制限のない、じっくり考えるべき興味深い問題がたくさんあります。
また、領域全体(テキスト、画像、音声、音楽など)について研究を行うことも好きです。
あなたの研究哲学は実際にあなたの研究を反映していますね。異なる領域間でそれを追求したいという願望もそうですね。そもそも機械学習を始めたきっかけや、現在取り組んでいるサブフィールドへの動機付けとなった事はどんな事なのでしょうか?
これらの問題を攻略するための最も有望で強力なツールは、機械学習である事がすぐにわかりました。これにより、最終的に興味の中心となる機械学習手法への関心が高まりました。
音楽から始めたため、ラベル付きデータを取得することの難しさと費用の高さを味わいました。例えば、手作業で音楽を転記するために人間にお金を払うことは非常に高くつきます。
音楽の研究は、他の分野に比べて一般的に資金が不足しています。これは、他の研究分野に比べて収益に繋がる機会が比較的少なく、データの可用性が常に問題になるためです。もちろん、これが当てはまるのは音楽だけではありません。そのため、研究領域全体でラベルの必要性を軽減することに、より興奮しています。
これとは別に、論文の研究のために実験に利用できるGPUは1つだけでした。私が取り組んでいたいくつかの問題に対する自然な選択は、リカレントニューラルネットワーク(RNN)でしたが、RNNを使用して長い音楽を処理するのは、私のちっぽけなGPUでは遅すぎました。
これにより、完全に並列化可能な計算を使用して、シーケンス内の情報を効果的に集約できるfeed-forward attentionを開発することになりました。
貴方の研究対象は、NLPモデルでの転移学習、半教師あり学習、GANなど、非常に多くの分野にわたっています。どのようにしてこのように多岐にわたる研究しているのですか?つまり、いつ何に取り組むのでしょうか?
最近の研究のほとんどは、機械学習を使用すると上手く解決できる多くの問題があり、しかし、標準的な教師あり学習を使用するためには十分なラベル付きデータが不足しているという事実に動機付けられています。これが、私を教師なし学習(GAN)及び半教師あり学習の研究に駆り立てました。
これはまた、研究領域全体に影響を与える可能性のある主要な機械学習手法に集中する切っ掛けとなりました。
更に、私は自分が個人的にそれに取り組む必要、何らかの理由があるような問題を選択しようとします。自分自身が重要な専門知識、洞察、またはその他の優位性を持っているかどうかは関係ありません。
これは単に、機械学習の研究を行う人が非常に多いという実際的な理由によるものです。「進歩を成し遂げる可能性が最も高い人があなたであるような研究」に取り組むことが最善であるということです
1.GoogleのリサーチサイエンティストColin Raffelへのインタビュー(1/2)関連リンク
1)medium.com
An interview with Colin Raffel, Research Scientist at Google
2)arxiv.org
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
MixMatch: A Holistic Approach to Semi-Supervised Learning
ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring
How Much Knowledge Can You Pack Into the Parameters of a Language Model?
Realistic Evaluation of Deep Semi-Supervised Learning Algorithms
3)www.deeplearning.net
indexnext |previous |DeepLearning 0.1 documentation
4)lasagne.readthedocs.io
Welcome to Lasagne
5)www.ee.columbia.edu
mir_eval:A TRANSPARENT IMPLEMENTATION OF COMMON MIR METRICS(PDF)
6)colinraffel.com
Theoretical Insights into Memorization in GANs(PDF)
7)sayak.dev
Sayak Paul
コメント