データサイエンス学習時にやりがちな3つの大きな間違い(1/3)

データサイエンス学習時にやりがちな3つの大きな間違い(1/3)

1.データサイエンス学習時にやりがちな3つの大きな間違い(1/3)まとめ

・データサイエンスは実務的な使われ方が優先される傾向があるが科学としての側面を持つ
・この前提に基づかないと適切にデータサイエンスを実践する事が非常に困難になる
・全てのデータサイエンスは科学に共通する特性があり、これらを意識する事は有益

2.データサイエンスとは何か?

以下、www.kdnuggets.comより「The 3 Biggest Mistakes on Learning Data Science」の意訳です。元記事は2019年5月、Favio Vazquezさんによる投稿です。

データサイエンス、あるいはあなたは好きなようにソレを呼んで良いのですが、何であっても、単にいくつかのプログラミング言語、数学、統計、そして「特定領域の専門知識(domain knowledge)」を持っていれば良いと言うわけはありません。そして、以下で私はその理由を示します。

こんにちは!またお会いしましたね。以下で言及する事の一部を既に他の記事でも説明していますが、ここでは「データサイエンスではない事」と「データサイエンスではない事を学ばない方法」についてのいくつかの方向性を示したいと思います。

それでは、基本から始めましょう。

データサイエンスとは何ですか?
時は来ました。 私たちは新しい分野、あるいはそのような、とにかく新しいものを創りだしました。この新しい分野では発言すべき事や学ぶべき事が沢山あります。

名前は何でも良いです。「データサイエンス」とはより広い分野を指し示す一時的な名前にすぎないかもしれません。データを科学的に研究し、そこから洞察を得て、現在もしくは未来の世界を予測できるようになる事です。

私はビジネス関連のデータサイエンスの定義と提案に焦点を当てますが、これらはこの分野全体に当てはまるかもしれません。しかし、この記事の基本アイデアはビジネス用途のデータサイエンスに関するものです。

私は、以下の3つを提案します。

1)データサイエンスは科学です。
2)データサイエンスにはヒドイ学習方法があります
3)上手に作成されたチートシートを使用すると、体系的にデータサイエンスを実行するのに役立ちます。

データサイエンスは科学です
はい、私はこの考え方が何人かの人々の間で物議をかもしていることを知っていますが、私はこの考えに固執しています。ここで私が言いたいのは、データサイエンスはもちろんビジネス界で使用されていますが、それは結局のところ、科学、または科学として成立する途中の段階です。

私は以前にデータサイエンスを次のように定義しました。

数学、プログラミング、科学的方法(データの分析と予測モデルの生成による仮説、実験、テストの作成を含む)によるビジネス/組織問題の解決。データサイエンスはこれらの問題を、理解しやすい仮説に変換する責任があります。そして、創造的な方法で最初の仮説に答える事が出来なければなりません。また、得られた結果を効果的に伝達する事、及び得られた解決策がビジネス/組織にどのように付加価値を与えるかについて伝達する事も含める必要があります。

ここでは、科学としてのデータサイエンスの説明と定義を述べています。データサイエンスをサイエンスとして表現できる事は非常に有益であると思います。この前提の下で、全てのデータサイエンスプロジェクトは少なくとも次を満たすようになります。

・再現性:他人の作業や分析をテストしやすくするために必要です。

・誤りを免れない:データサイエンスと科学は真実を探すのではなく、知識を探すのです。そのため、将来的にあらゆるプロジェクトは代替または改善されます。最終的な解決策が導かれる事はありません。

・共同作業:データサイエンティストは一人では存在しえません。チームが必要です。このチームは、インテリジェントなソリューションを開発する事を可能にします。共同作業は科学の大きな部分であり、データサイエンスも例外ではありません。

・創造性:データサイエンティストが行うことの大部分は、新しい研究、新しいアプローチ、または様々なソリューションの採用です。そのため、彼らの環境は非常にクリエイティブで作業が容易である必要があります。創造性は科学において極めて重要であり、困難で複雑な問題に対する解決策を見つけることができる唯一の方法です。

・規制への準拠:現在、科学には多くの規制がありますが、データ科学にはそれほど多くはありませんが、将来的にはもっと多くなるでしょう。私たちが構築しているプロジェクトがこれらの異なる種類の規制を認識している事が重要です。そうすれば、問題に対してクリーンで受け入れられる解決策を作ることができます。

これらの基本的な原則に従わないと、適切にデータサイエンスを実践する事が非常に困難になります。データサイエンスは、意思決定が体系的なプロセスに従うような方法で実装されるべきです。しかし、これについては後で詳しく説明します。

 

3.データサイエンス学習時にやりがちな3つの大きな間違い(1/3)関連リンク

1)www.kdnuggets.com
The 3 Biggest Mistakes on Learning Data Science