(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(2/2)

(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(2/2)

1.(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(2/2)まとめ

・2018年4月時点でアメリカでデータサイエンティストが知っておくべきと見なされたツールの紹介
・必ずしも製品というわけではないのでキーワードとして覚えておくと良いかもしれない
・オープンソースのものと商用のものも混在しており、それだけカオスな状況なのかもしれない

2.データサイエンス初学者が知っておくべきツールとは?

以下、datafloq.comより「10 Tools for the Novice Data Scientist」の意訳です。元記事は2018年4月25日、Ashley Korneeさんによる投稿です。現時点でしたらやっぱりAutoMLと言う事になるのでしょうか。

6)Narrative Science
データを活用して自動でレポートを作成するという独創的なアイデアで設計されています。Narrative Scienceは、レポートを作成するために次世代の自然言語処理プロセスを使用してストーリーを伝えるツールのように機能します。これは、人間のコンサルタントが作るレポートと同程度のものです。

7)Trifecta
特にデータの準備に焦点を当てています。 主な製品は2つあります。

Wrangler – 無料版
Wrangler Enterprise – 有料版

データクリーニングを実行するとTrifactaはユニークなグラフィカルユーザーインターフェースを表示します。入力データを元に、列ごとに統計情報を整理し、簡単に要約します。その他に、ワンクリックで自動変換出来るオススメの変換を提案してきます。変換のうちのいくつかは、予めパターン化されたツールを使用して情報に簡単に適用する事ができます。あなたが所有しているデータを把握するために、データを調べる事からこの変換プロセスは開始されます。

8)MLBase
これは、カリフォルニア大学バークレー校のAlgorithms Machines People Labによって開発された、数多くのオープンソースプロジェクトの1つです。このツールの主な目的は、規模の大きい様々な問題の解決に機械学習を適用するために解決策を提供することです。以下は彼らが提供する機能の抜粋です。

MLオプティマイザ
オプティマイザは、MLlibおよびMLI内のMLアルゴリズム、さらには特徴量抽出プログラムに関する問題を解決するように設計されています。MLパイプライン構築の操作を自動化することが任務です。

MLib
現在はSpark Communityによってサポートされており、ML Libraryのコアディストリビューションとして機能しています。 これはもともとMLBaseプロジェクトのために作成されました。

MLI
極端なMLプログラミングの抽象化を実現している、特徴量抽出のためのプロトタイプAPIと開発アルゴリズムです。

9)Automatic Statistician
分析とデータ探索ツールを研究する目的の会社のツールであり、販売されている製品ではありません。データの詳細を得るため、自然言語プロセスを使用してさまざまな種類のデータを取り込みます。まだ開発中で、入手可能な情報はほとんどありません。情報公開に関してGoogleが関与している可能性があります。

10)WEKA
Javaで書かれたデータ収集ソフトウェアです。ニュージーランドのWaikato 大学のThe Machine Learning Groupによって開発された、データサイエンスの初心者ユーザーにとって理想的な、グラフィックユーザーインターフェースプログラムツールです。そのコア機能を除いた部分はオープンソースです。現在は学術的な場面でより多く使用されていますが、近い将来より広く使用されるようになる可能性があります。

 

米国では企業が採用したデータサイエンティストに多額の給料を支払っても構わないと思っているため、米国で最も報酬の高い仕事の1つにランクされています。この求人状況は、学生や中堅クラスのデータサイエンティストがこれらのツールで必要なスキルを身に付ける機会を生みだしています。

3.(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(2/2)関連リンク

1)datafloq.com
10 Tools for the Novice Data Scientist