(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(1/2)

(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(1/2)

1.(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(1/2)まとめ

・2018年4月時点でアメリカでデータサイエンティストが知っておくべきと見なされたツールの紹介
・2018年後半に一つのブレークスルーがあったため当時最先端と見なされた技術はもしかしたら古いかも
・しかし、どんな方向性に向かっていて何があってどう変わったかを俯瞰した目で見るのはおそらく役立つ

2.データサイエンス初学者が知っておくべきツールとは?

以下、datafloq.comより「10 Tools for the Novice Data Scientist」の意訳です。元記事は2018年4月25日、Ashley Korneeさんによる投稿です。かなり前に斜め読みして面白そうだから全てのツールを試してみようと思いつつ一年が経過してしまいました。Before BERT、Before GPT-2の記事である事を考えるとおそらくところどころ古くなってしまっている部分もあると思うのですが、テクノロジーの進化の流れを俯瞰して眺める意義はあるかと思っています。

データサイエンティストは統計に関する知識と収集したデータを活用し、製品開発、顧客維持、およびビジネスチャンスの創出のために活用します。データサイエンティストによる論文執筆支援するサービスがある程です。最近では、データサイエンティストの需要が高まるにつれて、21世紀で最もセクシーな職業とも呼ばれています。

一人前のデータサイエンティストになるために身に付ける事が必要な幾つかのスキルがあります。そして、あなたがそれを身に着けたいとき、練習の際に使用できるいくつかのツールを以下に紹介します。

1)RapidMiner
2006年にRapid-Iという名前のオープンソースプログラムとして始まりました。 年が経つにつれて、彼らはそれをRapidMinerと名付け、3500万ドルの資金を得ることに成功しました。オープンソースの古いバージョンもあります。14日間の試用期間内に注文でき、その後ライセンスを購入できます。RapidMinerは、ライフサイクル全体の予測モデリング、さらに展開と検証を取り入れています。グラフィックユーザーインターフェースは、Matlab Simulinkと同じブロック図を用いたアプローチを使用して設計されています。

2)BigML
これは、6つの簡単なステップで使用できる優れたグラフィックユーザーインターフェースを提供するもう1つのプラットフォームです。

ソース – さまざまなデータソースを利用
データセット – 定義されたソースを利用して新しいデータセットを作成
モデル – 予測モデルの作成
予測 – モデル自体に従って予測を生成
アンサンブル – 異なるモデルのアンサンブルを開発
評価 – 検証セットにモデルを適用

bigmlプラットフォームは、製品の結果を視覚化した魅力的なビジュアライゼーションをユーザーに提供し、回帰、クラスタリング、分類、およびその他の関連付けの問題を解決するために使用できる驚くべきアルゴリズムを備えています。

3)DataRobot
DataRobotは、Owen Zhang、Thoman DeGodoy、およびJeremy Achinによって開発されたハイエンドの機械学習プラットフォームです。 このプラットフォームはデータサイエンティストをほぼ時代遅れにしたとも言われています。

それは彼らのウェブサイトの引用から明らかです。「データサイエンスには、数学と統計の適性、プログラミングスキル、およびビジネス知識が必要です。DataRobotを使用すると、ビジネスの知識とデータを活用できます。そして、私たちの最先端の自動化機能が残りの面倒を見ます。DataRobotは、テキストマイニング、データの補完、エンコード、拡大縮小、変換を使用して、最も効率的な特徴エンジニアリングと情報の前処理を自動的に検出できるプラットフォームです。」

4)Paxata
データ準備とクリーニングに焦点を当てている会社の1つです。統計的モデリングや機械学習の一部には焦点を当てていません。Microsoft Excelのように見えますが、はるかに使いやすくなっています。

プログラムには視覚的なガイドが含まれているため、データの照合、欠落データおよびダーティデータの検索と修正が容易になります。グループ間でデータプロジェクトを共有およびリサイクルすることもできます。 他のツールと同様に、スクリプト作成やコーディングは不要です。そのため、データ処理に関する技術的な問題の克服に非常に効果的です。

Paxataには、NLP検出技術によってコピーや補完を行ってデータを正規化し、データクリーニングを実行する一連のプロセスもあります。また、ユーザーがワンクリックでデータフレームを結合できるようにする統合テクノロジ(SmartFusion)もあります。 あなたの仕事がデータのより集中的なクリーニングを必要とするならば、Paxataは使うのに素晴らしいツールです。

5)Google Cloud Prediction API
REST形式のAPI経由で、Google Cloud Prediction APIはAndroid上のアプリケーション用の機械学習パターンを作成します。プラットフォームは、Androidオペレーティングシステムで使用するためのモバイルアプリ用に設計されています。

ユーザーの過去の視聴習慣に応じて、ユーザーが楽しむ可能性のある商品や映画を予測するおすすめエンジンなどがその例です。スパム検出は、電子メールを非スパムまたはスパムとして分類する例にもなります。ただし、購入予測では、1人のユーザーの支出履歴に基づいて、1日のユーザーの支出額を推測します。

 

3.(2018年4月時点で)データサイエンス初学者が知っておくと便利な10のツール(1/2)関連リンク

1)datafloq.com
10 Tools for the Novice Data Scientist