データサイエンティストになるために2021年に学ぶべき7つの推奨スキル(1/2)

入門/解説

1.データサイエンティストになるために2021年に学ぶべき7つの推奨スキル(1/2)まとめ

・データを扱うプロ達から推奨された7つのデータサイエンススキルの紹介
・7つのスキルのいずれも、機械学習や深層学習とは関係がない
・モデリング前後に使用されるスキルに対する需要がはるかに高いため

2.2021年にもデータサイエンティストに求められるスキルとは

以下、towardsdatascience.comより「7 Most Recommended Skills to Learn in 2021 to be a Data Scientist」の意訳です。

プロジェクトによって求められる役割が異なってくるため、以下の7つが必須と言うわけではないと思いますが、入門レベルはざっと押さえておくと良いのかな、と思います。

Photo by Green Chameleon on Unsplash

前書き
明けましておめでとうございます!

2021年を始める前に、私は、世界最大のデータを扱っているリーダーの何人かと意見交換や議論をした際に、最も推奨された7つのデータサイエンススキルを共有したいと思いました。これらのリーダーには、Googleのデータと分析の責任者、NVIDIAのエンジニアリングのシニアディレクター、Wealthsimpleのデータサイエンスおよびエンジニアリングの副社長を含みます。

この記事は裏付けに乏しいかもしれませんが、貴重な視点を共有しているように感じます。私の経験から、業務の求人説明と実際に業務として行われていることとの間にはかなりの隔たりがあるように思われるため、私は特にWebサイトから収集した求人情報のデータは参照していません。

7つのスキルのいずれも、機械学習や深層学習とは関係がないことに気付くかもしれませんが、これは間違いではありません。

現在、モデリング前のフェーズとモデリング後のフェーズで使用されるスキルに対する需要がはるかに高くなっています。従って、学ぶために最も推奨される7つのスキルは、実際には、データアナリスト、ソフトウェアエンジニア、およびデータエンジニアのスキルと重複しています。機械学習を最初に学ぶべきではない理由について具体的に「Want to Be a Data Scientist? Don’t Start With Machine Learning」と言う記事を過去に書いているので、末尾リンクから参照してください。

それでは、2021年に学ぶために最も推奨される7つのデータサイエンススキルに飛び込みましょう。

(1)SQL
SQLは、データの世界における世界共通の言語です。 データサイエンティスト、データエンジニア、データアナリストのいずれであっても、SQLについて知る必要があります。SQLは、データベースからデータを抽出し、データを操作し、データパイプラインを作成するために使用されます。

基本的に、SQLは、データライフサイクルのほぼすべての事前分析/事前モデリング段階で重要です。強力なSQLスキルを身に付けることで、高度な方法でデータを抽出および操作できるため、分析、視覚化、およびモデリングを次のレベルに引き上げる事ができます。また、ペタバイト単位のデータを扱う企業にとって、効率的で大規模データに対応可能なクエリを作成することがますます重要になっています。

SQLを学ぶための私のお気に入りのリソースのいくつかを次に示します。

・mode.com(The SQL Tutorial for Data Analysis)
・www.codecademy.com(Learn SQL)
・www.youtube.com(SQL Tutorial – Full Database Course for Beginners)

(2)データの視覚化と伝え方
データの視覚化と伝え方(Storytelling、ストーリーテリング)がデータアナリストに固有の役割と考えていた場合は、もう一度考えなおしてください。

データの視覚化とは、単に視覚的に提示されるデータを指します。グラフの形式にすることもできますが、型にはまらない方法で表示することもできます。

データストーリーテリングは、データの視覚化を次のレベルに引き上げます。データストーリーテリングとは、洞察を伝える「方法」を指します。絵本のように考えてください。 優れた絵本には優れたビジュアルがありますが、ビジュアルをつなぐ魅力的で強力な物語もあります。

データの視覚化とストーリーテリングのスキルを身に付ける事は不可欠です。何故なら、貴方はデータサイエンティストとして常にアイデアやモデルを捌く必要があるからです。

また、技術に精通していない他の人とコミュニケーションをとる場合は特に重要です。

データの視覚化とストーリーテリングを学ぶための私のお気に入りのリソースのいくつかを次に示します。

・towardsdatascience.com(Data Visualization using Matplotlib)
・towardsdatascience.com(The Next Level of Data Visualization in Python)
・www.youtube.com(Storytelling with Data | Cole Nussbaumer Knaflic | Talks at Google)

(3)Python
私の交流関係の範囲内では、RよりもPythonの方が学習しやすいプログラミング言語のようです。これは、Rを使用しているとデータサイエンティストになれないという意味ではありませんが、R、つまり、大多数の人が使用しているものとは異なる言語で作業する事を意味します。

Pythonの構文を学ぶのは簡単ですが、貴方は効率的なスクリプトを書けるようになり、Pythonが提供する幅広いライブラリやパッケージを活用できるようになる必要があります。Pythonプログラミングは、データ操作、機械学習モデルの構築、DAGファイルの記述などのアプリケーションのための基礎的土台です。

Pythonを学ぶための私のお気に入りのリソースのいくつかを次に示します。

・leetcode.com(LeetCode Explore)
・www.youtube.com(Learn Python – Full Course for Beginners [Tutorial])

(4)Pandas
Pythonで知っておくべき最も重要なライブラリは間違いなく、データの操作と分析のためのパッケージであるPandasです。データサイエンティストは、データのクリーニング、データの探索、データの操作など、常にこのパッケージを使用します。

Pandasを学ぶための私のお気に入りのリソースのいくつかは次のとおりです。

・www.kaggle.com(Pandas)
・github.com(guipsamora/pandas_exercises)

 

3.データサイエンティストになるために2021年に学ぶべき7つの推奨スキル(1/2)関連リンク

1)towardsdatascience.com
7 Most Recommended Skills to Learn in 2021 to be a Data Scientist
Want to Be a Data Scientist? Don’t Start With Machine Learning.
Data Visualization using Matplotlib
The Next Level of Data Visualization in Python

2)mode.com
The SQL Tutorial for Data Analysis

3)www.codecademy.com
Learn SQL

4)www.youtube.com
SQL Tutorial – Full Database Course for Beginners
Storytelling with Data | Cole Nussbaumer Knaflic | Talks at Google
Learn Python – Full Course for Beginners [Tutorial]

5)leetcode.com
LeetCode Explore

6)www.kaggle.com
Pandas

7)github.com
guipsamora/pandas_exercises

タイトルとURLをコピーしました