データサイエンティストになるために2021年に学ぶべき7つの推奨スキル(2/2)

入門/解説

1.データサイエンティストになるために2021年に学ぶべき7つの推奨スキル(2/2)まとめ

・複数人と共同で作業するためにバージョン管理システムであるGit
・環境そのものをコンテナ化し、展開するためにDocker
・データ整備やモデル作成作業を自動化するためにAirflow

2.2021年にもデータサイエンティストに求められるスキルとは

以下、towardsdatascience.comより「7 Most Recommended Skills to Learn in 2021 to be a Data Scientist」の意訳です。

Photo by Green Chameleon on Unsplash

(5)Git/バージョン管理
Gitは、技術コミュニティで使用されている主流のバージョン管理システムです。

この意味がわからない場合は、以下の事例を見てください。高校や大学で執筆をした際に、執筆を進めていくうちに、様々な版の文章を保存していたと思います。

例えば以下のように、

最終版
|
+-最終第一般
|
+-最終第二般
|
+-最終脱稿版
|
+-最終_最終版
|
+-最終_最終版公式

冗談はさておき、Gitは分散システムであることを除けば、同じ目的を果たすツールです。これは、ファイル(またはリポジトリ)がローカル(自分のパソコン内)と中央サーバーの両方に保存される事を意味します。

Gitはいくつかの理由で非常に重要ですが、そのいくつかは次のとおりです。

・古いバージョンに戻すことができます
・他の複数のデータサイエンティストやプログラマーと同時並行して作業することができます。
・あなたが全くまったく異なるプロジェクトで作業している場合でも、他の人と同じコードをベースに作業できます。

Gitを学ぶための私のお気に入りのリソースのいくつかを次に示します。

・www.codecademy.com(Learn Git)
・www.youtube.com(Lecture 6: Version Control (git) (2020))
・learngitbranching.js.org(Learn Git Branchingへようこそ)

(6)Docker
Dockerは、機械学習モデルなどのアプリケーションをデプロイ(展開)して実行できるようにするコンテナ化プラットフォームです。

データサイエンティストがモデルの構築方法だけでなく、モデルの展開方法も知っている事がますます重要になっています。実際、多くの求人情報には、モデル展開の経験が必要です。モデルの導入方法を学ぶことが非常に重要である理由は、モデルが関連するプロセス/製品と実際に統合されるまで、モデルはビジネス価値をもたらさないためです。

Dockerを学ぶための私のお気に入りのリソースのいくつかを次に示します。

・docker-curriculum.com(A Docker Tutorial for Beginners)
・www.youtube.com(Docker For Beginners: From Docker Desktop to Deployment)
・aws.amazon.com(Docker コンテナのデプロイ)
・towardsdatascience.com(Deploy Machine Learning Pipeline on the cloud using Docker Container)

(7)Airflow
Airflowは、ワークフローを自動化できるワークフロー管理ツールです。 具体的には、Airflowを使用すると、データパイプラインや機械学習パイプラインのワークフローを自動化できます。Airflowは、さらなる分析やモデリングに使用できるテーブルを本番環境に移行できるため強力です。また、機械学習モデルをデプロイするために使用できるツールでもあります。

Airflowを学ぶための私のお気に入りのリソースのいくつかを次に示します。

・www.youtube.com(Airflow tutorial 1: Introduction to Apache Airflow)
・towardsdatascience.com(A Complete Introduction to Apache Airflow)
・airflow.apache.org(Tutorial)

読んでくれてありがとうございます!

これがあなたの学習の指針となり、新年の方向性を与えることを願っています。学ぶ事ことは沢山あるので、私は間違いなくあなたにとって最も興味深く聞こえ、開始地点と出来るいくつかのスキルを選択しました。

これはデータの裏付けがない経験に裏打ちされた記事であることに留意してください。従って、この記事から貴方が必要なものだけ取り出してください。しかし、私はいつものように、あなたの学習努力が最高の結果に結びつく事を祈っています。

3.データサイエンティストになるために2021年に学ぶべき7つの推奨スキル(2/2)関連リンク

1)towardsdatascience.com
7 Most Recommended Skills to Learn in 2021 to be a Data Scientist
Deploy Machine Learning Pipeline on the cloud using Docker Container
A Complete Introduction to Apache Airflow

2)www.codecademy.com
Learn Git

3)www.youtube.com
Lecture 6: Version Control (git) (2020)
Docker For Beginners: From Docker Desktop to Deployment
Airflow tutorial 1: Introduction to Apache Airflow

4)learngitbranching.js.org
Learn Git Branchingへようこそ

5)docker-curriculum.com
A Docker Tutorial for Beginners

6)aws.amazon.com
Docker コンテナのデプロイ

7)airflow.apache.org
Tutorial

タイトルとURLをコピーしました