Hugging Face社のオンライン無料NLP学習コースの紹介

入門/解説

1.Hugging Face社のオンライン無料NLP学習コースの紹介まとめ

・Hugging Face社がHugging Faceライブラリを使用したNLP用の無料オンラインコースを公開
・自作ライブラリだけでなく、NLPで最先端のタスクを実行する方法も理解できるようになる
・まだ全コースは公開されていないが初歩的な段階から体系的に学習を進める事が出来る

2.良いオンライン学習コースの条件とは?

以下、towardsdatascience.comより「Reviewing the recently released Hugging Face Course」の意訳です。元記事の投稿は2021年6月17日、Parul Pandeyさんによる投稿です。

Hugging Face社は自然言語処理関連では評判良いのでちょっと気になっているコースです。

アイキャッチ画像はHugging Faceのトレードマークアイコンと強い画像相似性を感じて選択したものでクレジットはPhoto by Caju Gomes on Unsplash

オンラインで様々な事を学習可能な大規模公開オンライン講座(MOOC:Massive Open Online Courses)は、独学のデータサイエンティストの生活に欠かせない要素です。データサイエンティストになりたい人で部屋が満たされている場合、その人達の中の50%はAndrew Ng氏による有名な機械学習コースを受講している可能性があります。

しかし、ここに捻じれがあります。私たちの多くはさまざまなオンラインコースに登録していますが、それらを完了するのはほんの一握りです。 実際、「MOOCが機能しなかった3つの理由」というタイトルの調査では、オンライン学習コースの完了率と継続率は非常に低いと主張しています。コースを修了するために十分なモチベーションを用意するのは学生側の責任であると主張する人もいるかもしれませんが、責任はコンテンツ作成者側にもあります。


良いMOOCの条件「魅力的なコンテンツ」「気軽に読めるサイズの断片的なコンテンツ」「文書と動画の両方の提供」「クイズやバッジなどの多様な仕組みでモチベーションを維持」「活発な掲示板」

私は多くの人々と交流し、コンテンツの配信について彼らのフィードバックを受け取りました。オンラインコースが上記の5つのポイントを備えていれば、素晴らしい学習体験になると思います。

では、なぜ今回突然、オンラインコースに関する記事を書いたなのでしょうか。

これは、最近、Hugging Face社のチームがHugging Faceライブラリを使用したNLPの無料コースを公開したためです。このコースでは、多くの人が自分のライブラリだけでなく、NLPで最先端のタスクを実行する方法も理解できるようになります。Hugging Faceは、自然言語処理エコシステムで非常によく知られている名前です。かっこいいロゴがあるだけでなく、NLPセクターを大幅に民主化したことでも知られています。

この記事では、Hugging Faceのオンラインコースを横断してツアーに参加します。次に、コースの内容とその内容、および前述のチェックがオンになっているかどうかを確認します。それでは始めましょう。

このオンライン学習コースは何ですか?

このオンライン学習コースは、Hugging Faceエコシステムを使用してNLPの詳細を教えることに焦点を当てています。このコースは初心者を対象としていますが、中級者だけでなく専門家にも何らかの形で役立ちます。このコースの主な目的は、4つの重要なHugging Faceライブラリの内部動作と使用法を強調することです。

・Transformers
BERTGPT-2、RoBERTa、XLM、DistilBert、XLNetなどの何千もの事前トレーニング済みモデルを提供するライブラリです。分類、情報抽出、質問応答、要約、翻訳、テキスト生成などのテキストのタスクを実行できます。

・Tokenizers
テキスト入力を数値データに変換します。

・Datasets
自然言語処理(NLP)のデータセットと評価指標を簡単に共有してアクセスできる、軽量で拡張可能なライブラリです。

・Accelerate
このライブラリを使用すると、わずかな調整で、複数のGPUまたはTPUでPytorchモデルの分散トレーニングが可能になります

これに加えて、このコースでは、Hugging Face Hubの使用方法も学習します。コース全体は、テキストと再利用可能なコードでの説明と組み合わせた短いビデオスニペットの形式です。

受講の前提条件は何ですか?

このコースには、それを最大限に活用できるように、いくつかの前提条件があります。
Pythonをしっかりと理解し、ある程度の基本的なディープラーニングの知識を持っている必要があります。さらに、PytorchまたはTensorflowのいずれかである程度の経験があると役立ちます。

コースはどのような構成になっていますか?

コースは3つの主要なモジュール(module)に分かれており、各モジュールはさらにチャプター(chapters)またはサブセクション(subsections)に分かれています。モジュールは、進行するにつれて高度になります。主なモジュールは次のとおりです。

現在、最初のモジュールのみがリリースされています。 2つのモジュールの残りは、今後数か月以内に利用可能になります。

Module 1

最初のモジュールでは、Transformersライブラリの概念とその使用方法を紹介します。 らに、Hugging Face Hubのモデルを使用し、データセットで微調整して、ハブで結果を共有する方法についても説明します。このモジュールはさらに4つの章に分かれています。

Chapter 1

この章では、NLPと、テキスト処理が機械学習の実践者に課題をもたらす理由を紹介します。次に、パイプラインの概念について説明します。これは、Transformersライブラリの最も基本的なオブジェクトです。

「モデルを必要な前処理および後処理ステップに接続し、テキストを直接入力してわかりやすい答えを得ることができます。 [Hugging Faceコースより]」

パイプラインメソッドは、テキスト生成、テキスト分類、質問応答など、いくつかのNLPタスクに適用できます。 次に、エンコーダー、デコーダー、およびシーケンス間モデルとともに、Transformerモデルのアーキテクチャーと動作について詳しく説明します。最後に、エンコーダー、デコーダー、およびエンコーダー-デコーダーモデルについて学習します。

Chapter 2

transformers とは何か、パイプラインがどのように機能するかがわかったので、内部でどのように機能しているかを全て確認できます。Transformerモデルとトークナイザーを使用して、パイプラインAPIの動作を複製します。また、Tokenizersと、Tokenizersがテキストをモデルが理解できる入力に変換する方法についても学習します。

Chapter 3

少しずつ難しくなります。この章では、カスタムデータセットを使ったNLPモデルの事前トレーニングに焦点を当てます。高レベルのTrainerAPIを使用してモデルを微調整し、Accelerateライブラリを使用して複数のGPUおよびTPUでPytorchモデルをトレーニングする方法を学習します。

Chapter 4

最後の章では、Hugging Faceエコシステムのコミュニティの側面に焦点を当てています。 コミュニティによってトレーニングされたモデルを使用できるだけでなく、独自のモデルで貢献できるように、Model Hubを使う方法を説明します。

Module 2

2番目のモジュールでは、Hugging face DatasetsとTokenizersについて詳しく説明します。
最初のモジュールと2番目のモジュールを十分に理解すると、学習内容を適用して一般的なNLPタスクに取り組むことができるようになります。

Module 3

特定の事例向けにカスタムオブジェクトを作成する方法を学びたい場合、または特殊なアーキテクチャを理解したい場合、このモジュールはあなたを失望させません。このモジュールを最後まで学習すれば、Hugging Faceのエコシステムを理解し、意味のある方法で複雑なNLP問題を解決出来るようになるでしょう。

モジュール2と3の章もリリースされたら、本記事は更新予定です。

コースで使用されているフレームワークはどちらでしょう?


このコースは、PytorchとTensorflowの両方で利用できます。 したがって、2つのライブラリのいずれかに慣れている場合は、問題がないはずです。 さらに、コースはGoogle Colabノートブックで簡単に実行する事ができます。

ボーナスクイズ

理解度をテストするために、各章の最後に補足クイズが用意されています。ただし、資料を真に理解したかどうかを理解するための優れた方法は、独自のプロジェクトで、またはコミュニティと協力して、学習内容を活用することです。

最終的な評価

では、このMOOCが正しいチェックボックスにチェックがあるかどうかという質問に戻りましょう。

疑いなく、本コースの内容は有意義で興味深く、長い間必要とされていたものでした。各モジュールは、初歩的な段階から体系的に学習を進めるために慎重にまとめあげられています。これにより、初心者が入り口で興味を失ってしまうのを防ぐことができます。本コースでは、参加者が自分自身の例やデータを使用するなどの実験を行うことも奨励されています。これは素晴らしいアイデアです。MOOCは対話性の欠如に悩まされており、クイズや「自分で試す」演習を含めると、この欠如を克服するのに役立ちます。

3.Hugging Face社のオンライン無料NLP学習コースの紹介関連リンク

1)towardsdatascience.com
Reviewing the recently released HuggingFace Course

2)huggingface.co
Transformer models – Hugging Face Course

タイトルとURLをコピーしました