1.何故、データサイエンティストはゼネラリストを目指すべきではないのか?(1/2)まとめ
・データサイエンスティストは具体的な問題解決を念頭に求人されている事が多い
・意欲的な人はあらゆる事をみにつけてようとしてゼネラリストになりがち
・しかし、求人市場ではゼネラリストは強みにならない事があるのでスキルセットを知ろう
2.データサイエンス業界を目指す人へのアドバイス
以下、www.kdnuggets.comより「Why You Shouldn’t be a Data Science Generalist」の意訳です。元記事は2018年12月、Jeremie Harrisさんによる投稿です。
私はデータサイエンスを教えるスタートアップに勤務していますが、意欲的な生徒達に何度も何度も繰り返し1つのアドバイスをしていることに気付きました。同じアドバイスをする事は、私が期待していたことではありません。
新しいライブラリやツール、あるいは履歴書を改良する事について提案するのではなく、最初にデータサイエンティストを目指すなら、どのような種類のデータサイエンティストになりたいかについて考えることをお勧めします。
これが非常に重要な理由は、データサイエンスは明確に定義された単一の職業ではなく、企業は一般的な職業である「データサイエンティスト」を雇うのではなく、データに関する非常に特殊なスキルセットを持つ個人の雇用を希望しているからです。
その理由は、あなた自身がデータサイエンティストを雇おうとしている会社だと想像してみてください。 あなたは助けを必要としている具体的な作業を念頭に置いてかなり明確に定義された問題をほぼ確実に持っています。
たとえば、大規模なデータセットに単純なモデルを適用する、小規模なモデルに複雑なモデルを適用する、一部のモデルをその場でトレーニングする必要がある、および(従来の)モデルをまったく使用しない企業などがあります。
これらはそれぞれまったく異なるスキルセットを必要とするため、熱意ある意欲的なデータサイエンティストが受けるアドバイスは非常に一般的なものになりがちです。Pythonの使い方を学び、分類/回帰/クラスタリング手法を学び、プロジェクトを構築し、その後、仕事に応募し始める等。
業界で働いている私達は全員、この傾向に対して多くの責任を負います。私達は、カジュアルな会話、ブログの投稿、およびプレゼンテーションで、過剰に多くの作業を「データサイエンス」としてまとめてしまう傾向があります。
「プロダクト用に堅牢なデータパイプラインを構築する事」は「データサイエンスの問題」です。
「新しい種類のニューラルネットワークを開発する事」それは「データサイエンスの問題」です。
これは良くない傾向です。意欲的なデータサイエンティストは特定の分野に集中せず、代わりに全ての分野を広く浅く学ぼうとする傾向があるためです。ゼネラリストでは既に飽和している転職市場では注目される事も突破することも難しくなります。
しかし、最初にどんなスキルに特化できるのかを知らなければ、ゼネラリストになるのを避ける事は困難です。そのため、「データサイエンス」という見出しの下に一くくりにまとめられる事が多い5つの分野をリストをまとめました。
1. Data Engineer
職務内容:大量のデータを扱う会社のデータパイプラインを管理します。 これは、必要に応じてデータが効率的に収集され、ソースから取得され、クリーンアップされ、前処理されていることを確認することを意味します。
重要な理由:.csvファイルまたは.txtファイルに保存された比較的小さい(5GB未満)のデータセットしか使用した事がなければ、データパイプラインを維持するためにフルタイムの仕事が必要になる理由を理解するのは難しいかもしれません。理由はいくつかあります。1)50GBのデータセットはコンピュータのRAMに収まらないため、モデルにデータ入力するには一般的に他の方法が必要になります。2)多くのデータを処理するのに多大な時間がかかる場合があります。そして、しばしば冗長に保存されなければなりません。そのストレージを管理するには、専門的な技術的ノウハウが必要です。
必要条件:Kafkaだけでなく、Apache Spark、Hadoop、Hive、あるいはその両方を使用しているテクノロジーがあります。 あなたはおそらくSQLについて習熟する必要があるでしょう。
あなたが受ける質問は、次のようなものです。
(1)「1分間に1万件のリクエストを処理できるパイプラインを構築するにはどうすればよいですか?」
(2)「このデータセットをすべてRAMに読み込まずにクリーンアップするにはどうすればよいですか?」
2. Data Analyst
職務内容:あなたの仕事は、データをビジネスに使える実用的な洞察に変換することです。多くの場合、技術チームと事業戦略、営業またはマーケティングチームの仲介者になるでしょう。データの視覚化は日々の大きな部分を占めるでしょう。
それが重要な理由:技術よりな立場の人々はデータアナリストがなぜそれほど重要であるかを理解するのに苦労することが多くありますが、彼らは本当に重要です。誰かが訓練されテストされたモデルと積み上げられたユーザーデータを使いやすいように変換して、それらを用いてビジネス戦略を設計できるようにする必要があります。データアナリストは、データサイエンスチームがビジネス価値をもたらさない問題を解決するために時間を無駄にしないようにするのに役立ちます。
必要条件:Python、SQL、Tableau、Excelなどのテクノロジを使用します。 あなたはまたコミュニケーションスキルに優れている必要があるでしょう。
あなたが扱うべき質問は、次のようなものです。
(1)「ユーザー増加率を高めている要因は何ですか?」
(2)「最近の料金の値上げにより、ユーザーが去っていることを経営層にどのように説明できるだろうか」
3.何故、データサイエンティストはゼネラリストを目指すべきではないのか?(1/2)関連リンク
1)www.kdnuggets.com
Why You Shouldn’t be a Data Science Generalist
コメント