2018年に貴方が雇用される事になるかもしれない5つのデータサイエンスプロジェクト

入門/解説

1.2018年に貴方が雇用される事になるかもしれない5つのデータサイエンスプロジェクトまとめ

・自分が出来る事をアピールするためにポートフォリオを作成する
・データサイエンティストのポートフォリオは5つの種類がある
・勉強のための勉強ではなくビジネス視点で構築する事が大事

2.データサイエンスの職を得るための最良の方法とは?

ポートフォリオ作成は、データサイエンス業界に入るための最良の方法です。この記事では、あなたの仕事や仕事の向上に役立つ5種類のプロジェクトを紹介します。

もし、あなたがMOOC(大規模オンライン学習サイト)で学び、たくさんの教科書を読んでデータサイエンス業界に入りたいと思っているのであれば、今あなたは何をすべきでしょうか?

データサイエンスとして仕事を得ることは難しいようです。あなたのスキルをアピールする最善の方法は、ポートフォリオ(Webサイト等で自分の実績やできる事を公開する事)です。これは、あなたが学んだスキルを実際に活用できている事を雇用主に示します。

貴方のスキルを紹介するポートフォリオに適している5つのタイプのデータサイエンスプロジェクトを紹介します。

1)データクリーニング

データサイエンスティストは、新しいプロジェクトでデータを綺麗にする事に多くの時間を費やします。プロジェクト完遂までにかかる時間の80%の時間を費やすことも珍しくありません。これはチームにとって大変な苦労です。あなたがデータのクリーニングに経験があることを示すことができれば、貴方のスキルは貴重なものとみなされます。データクリーニングプロジェクトを作成し、おかしなデータセットを見つけてクリーニングを開始しましょう。

Pythonを使って作業しているなら、Pandasは素晴らしいライブラリです。Rを使って作業しているなら、dplyrパッケージを使うことができます。次のスキルをポートフォリオで紹介しましょう。

・データのインポート
・複数のデータセットを結合する
・欠損値の検出
・異常の検出
・不足している値の代入
・データ品質保証

2)探索的データ分析

データサイエンスのもう一つの重要な側面は、探索的データ分析(EDA)です。これは質問を生成し、視覚化して調査するプロセスです。アナリストはEDAにより、データから結論を導き、ビジネスへの影響を促進することができます。

顧客の業界慣習に基づく興味深い洞察、または季節的な影響に基づく売上動向などを見つける事ができるかもしれません。しばしば、最初の考慮事項ではない興味深い発見をすることができます。

探索的解析のためのいくつかの有用なPythonライブラリは、PandasとMatplotlibです。Rユーザーの場合、ggplot2パッケージが便利です。EDAプロジェクトには次のスキルが必要です。

・調査のために関連する質問を策定する能力
・トレンドの特定
・変数間のバリエーションの特定
・ビジュアライゼーション(散布図、ヒストグラム、ボックスおよびウィスカーなど)を使用してわかりやすく結果を説明する

3)インタラクティブなデータの視覚化

インタラクティブなデータ視覚化には、ダッシュボードなどのツールが含まれます。これらのツールは、データサイエンスチームだけでなく、ビジネス指向のエンドユーザーにとっても便利です。ダッシュボードにより、データサイエンスチームは共同作業を行い、洞察を集めることができます。さらに重要なのは、ビジネス指向の顧客向けにインタラクティブなツールを提供することです。これらの個人は技術的な詳細ではなく戦略的な目標に焦点を当てています。多くの場合、クライアントへのデータサイエンスプロジェクトの成果物は、ダッシュボードの形で提供されます。

Pythonユーザーの場合、BokehとPlotlyライブラリはダッシュボードを作成するのに最適です。 Rユーザーの場合は、必ずRStudioのShinyパッケージをチェックしてください。ダッシュボードプロジェクトでは、下記の重要なスキルを強調する必要があります。

・お客様のニーズに関連する指標を含める
・便利な機能を作成する
・論理レイアウト(スキャンを容易にするための「Fパターン」)
・最適な再描画間隔を指定する
・レポートやその他の自動アクションの生成

4)機械学習

機械学習プロジェクトは、データサイエンスのポートフォリオのもう一つの重要な部分です。機械学習を軽視してディープラーニングを始める前に、一歩前に戻ってください。

複雑な機械学習モデルを構築するのではなく、基本を大事にしましょう。線形回帰とロジスティック回帰を最初に学ぶのは良い案です。これらのモデルは、解釈しやすく、上位レベルの管理職と意志の疎通を取ることができます。また、顧客の解約、不正行為の検出、ローン不履行の予測など、ビジネスに影響を与えるプロジェクトに焦点を当てることをお勧めします。これらは、花の種類を予測するよりも現実的です。

Pythonユーザーの場合は、Scikit学習ライブラリを使用してください。Rユーザーの場合は、Caretパッケージを使用してください。あなたの機械学習ポートフォリオは以下のスキルを伝えるべきです。

・特定の機械学習モデルを使用する理由
・データをトレーニング/テストセットに分割してオーバーフィットを回避する(k倍のクロスバリデーション)
・適切な評価指標(AUC、adj-R ^ 2、混同行列など)を選択する
・特徴量の設計とその選択
・ハイパーパラメータチューニング

5)コミュニケーション

コミュニケーションはデータサイエンスの重要な側面です。効果的なプレゼンは、優れたデータサイエンティストと偉大なデータサイエンティストを区別するものです。

あなたのモデルがどれほど素晴らしいかは問題ではありません。あなたがチームメートや顧客に説明できない場合は、評価して貰えないでしょう。スライドとノートブックはどちらも素晴らしいコミュニケーションツールです。あなたの機械学習プロジェクトの1つをスライド形式にしてください。コミュニケーションプロジェクトには、Jupyter NotebookまたはRMarkdown形式のファイルを使用することもできます。

あなたの意図する視聴者が誰であるかを理解してください。エグゼクティブに提示することは、機械学習の専門家に提示することとは大きく異なります。以下のスキルを習得してください。

・あなたのプレゼンを見る事になる想定顧客層を知る
・上手に視覚化して提示する
・あまり多くの情報を詰め込まない
・プレゼンテーションの流れが一貫していることを確認する
・ビジネスに与える影響を結びつける(コストの削減、収益の増加)

JupyterノートブックまたはRMarkdownファイルでプロジェクトを文書化してください。 Github Pagesを使用して、これらのマークダウンファイルを静的なWebサイトに無料で変換することができます。これは、潜在的な雇用者にあなたのポートフォリオを紹介する素晴らしい方法です。

肯定的な態度を保ち、プロジェクトを構築し続けると、データサイエンスとしてで仕事に就くことができます。ハッピージョブハンティング!

3.2018年に貴方が雇用される事になるかもしれない5つのデータサイエンスプロジェクト感想

kdnuggets.comからの翻訳ですが思ってた以上に良文でした!普段意識しないレベルで行っている作業を明示してくれて且つ、自分が軽視している部分なども指摘されたので改めて気づきが沢山。

確かに花の分類などの勉強のための勉強ではなくビジネス視点で構築する事が大事と思います。現実世界のデータは本当に汚いので、ダウンロード一発で用意できるような学習用データではなく、できれば自分でクロールする等で集めるのも面白かもしれません。

それと、面接をする側が良くわかっていない場合が結構あります。「我が社は膨大な独自データを(紙で)持っているのでそれを活用したい!」とか「我が社は(理論的に取得できるはずだが実際に取得した事は一度もない)膨大な独自データを持っているのでそれを活用したい!」とか、更にはそういった会社に限って「スピード感を持ってXカ月以内に~を」等々、実際に遭遇した事あります。

アンマッチ事例は気にせずハッピージョブハンティングに邁進しましょう!

4.2018年に貴方が雇用される事になるかもしれない5つのデータサイエンスプロジェクト関連リンク

1)kdnuggets.com
5 Data Science Projects That Will Get You Hired in 2018

コメント

タイトルとURLをコピーしました