データサイエンス学習時にやりがちな3つの大きな間違い(2/3)

データサイエンス学習時にやりがちな3つの大きな間違い(2/3)

1.データサイエンス学習時にやりがちな3つの大きな間違い(2/3)まとめ

・データサイエンスの習得には座って授業を聞くだけでなく実践する事が大切つ
・モデリングは非常に大切でその意義や目的を理解して作る必要がある
・Youtubeの動画やScikit-Learnのようなライブラリの文書に目を通す事も望ましい

2.データサイエンス学習の際の注意点

以下、www.kdnuggets.comより「The 3 Biggest Mistakes on Learning Data Science」の意訳です。元記事は2019年5月、Favio Vazquezさんによる投稿です。

データサイエンスの学習時の3つの落とし穴
あなたがここにいるのなら、あなたはデータサイエンスを今学んでいるか、あるいはMOOCのオンライン講座、もしくは通学講座さえ受けているかもしれません。私はプラットフォームや品質の悪いコースについてここで話をするつもりはありません。私は最悪のコースからでも何かを学ぶ事ができると思っています。

1.見ているだけで実践しない
数学、統計、プログラミングなど、データサイエンスに関連した授業を受講している事は、授業を聞いているだけです。

はい、まあ、あなたはあなたの時間を無駄にしています。データサイエンスの習得には実践が必要です。例え、教授が教えてくれなかったとしても、あなたが学んだ事は全て練習してみてください。これは本当に物事を理解するための基本であり、あなたがその分野で働くようになったとき、あなたは沢山の異なった手法を実践をすることになります。

統計、数学、およびPythonに関する十分な知識だけで、データサイエンティストとして成功することはできません。

あなたにはより多くが必要で、あなたは手技を習得する必要があります。ビジネス上の問題を解決するためにツールを容易に使用できるようにしてください。ですから、何か新しい事を学んでいてそれを本当に理解したいのであれば、その知識を活用できる、またはそのツールを使って遊ぶ事ができる具体的なシナリオを見つけてください。

2.クレイジーな方法でモデルを作成する
私達は「外の世界」からデータを得て、体と脳は私達が得た生データを分析し、そしてそれから物事を「解釈」します。

この「解釈」とは何でしょうか?

私達が得ている情報に対して、どのように反応し、考え、感じ、そして理解するかについて学ぶ事です。私たちが「理解」するとき、私たちは複雑な事象の一部を解読し、その解読方法を最初に受け取った生データに適用し、有用で単純なものに変換しています。

これは「モデリング」によって行われます。モデリングとは、「現実世界」、つまり私たちの周りの世界を理解するプロセスです。

しかし、私たちが見たもの、聞いたもの、そして感じたものを説明する、より高いレベルのプロトタイプを作成する事であり、「現実世界をそのまま」または「現実世界を正確に」モデル化するのではありません。単純な特徴的な部分をモデリングするのです。

そのため、あなたが以下のようなモデリングする前に考えてください:

model_i_created_it_5_seconds.fit(X,y)

モデリングは、機械学習とデータサイエンスの分野で非常に重要なものですが、それらには目的がなければなりません。そして、あなたは使う前にそれらを理解しなければなりません。データを使ってトレーニングする前に学習に使用するさまざまな指標、それらを評価する方法などを理解する必要があります。

そのため、Scikit-Learnのようなライブラリのドキュメントを読んでも害はありません。

・科学的データ処理のための統計的学習のチュートリアル – scikit-learn

Apache Spark:
・MLlib: Main Guide – Spark 2.4.1 Documentation

Tensorflow
・TensorFlow Guide

そしてもっと。それらはあなたを記事、論文、そしてより多くのブログ記事に導くでしょう、そしてそれらのほとんどは機械学習と統計的学習でモデル化をする方法に関する実務的な事例さえ掲載されているでしょう。

また、私の友人Brandon Rohrerのビデオのように、知識ゼロからヒーローレベルまで数分で到達できる、すばらしいビデオもあります。

 

3.データサイエンス学習時にやりがちな3つの大きな間違い(2/3)関連リンク

1)www.kdnuggets.com
The 3 Biggest Mistakes on Learning Data Science

2)scikit-learn.org
A tutorial on statistical-learning for scientific data processing

3)spark.apache.org
Machine Learning Library (MLlib) Guide

4)www.tensorflow.org
TensorFlow Guide