機械学習とデータサイエンスに有用なPythonパッケージ20(2/3)

入門/解説

1.機械学習とデータサイエンスに有用なPythonパッケージ20(2/3)まとめ

・Scipyライブラリは様々な科学技術計算用パッケージの土台
・自然言語処理はPyTorchが強くTensorFlowは画像や動画に強い
・PyTorchはTensorflowのライバルで急速に追い上げている

2.機械学習作業時に知っておきたいパッケージ20選

以下、www.kdnuggets.comより「The 20 Python Packages You Need For Machine Learning and Data Science」の意訳です。元記事の投稿は2021年10月、Sandro Luckさんによる投稿です。

アイキャッチ画像のクレジットはImage by Gerhard G. from Pixabay

8. Scipy

ちょっと紛らわしいのですが、Scipyライブラリがあり、それを土台にScipyスタック(stack)が構築されています。この記事で書いたライブラリとパッケージのほとんどは、Pythonで科学計算を行う際に良く使われるScipyスタックの一部です。これには、Numpy、Matplolib、IPython、およびPandasが含まれます。

Numpyと同じように、おそらくScipy自体を使用することはないでしょうが、前述のScikit-LearnライブラリはScipyに大きく依存しています。Scipyは、複雑な機械学習プロセスを実行するためのコアとなる数学的手法を提供します。GitHubに★評価が8,500個しかないのは、やはり少し奇妙です。

9. TQDM

もし貴方が私のお気に入りのPythonパッケージが何であるか疑問に思っているのならば、もう探す必要はありません。

TQDMと呼ばれるこの小さなアプリケーションです。これが実際に行うのは、任意のforループに対して処理状況を知らせる手段を提供することです。各反復にかかる平均時間、そして最も重要なこととして、そのような時間がかかることを示すプログレスバーを提供します。仕事に戻る前に、YouTubeの動画をどれだけ長く視聴できるかを正確に知る事ができます。私のお気に入りのパッケージには19,300の★評価が付いています。これにより、過去数年間の他のどのパッケージよりも安心感が得られました。

10.TensorFlow

最も人気のあるディープラーニング用フレームワークであり、Pythonを現在の地位に押し上げた理由です。Tensorflowは、tensorboard、collabWhat-Ifツールなど、さらに多くのパッケージとツールを含み、オープンソースのツール群を使って直接機械学習を実行できる完全なプラットフォームです。

ディープラーニング需要のために世界をリードする多くの企業によって選ばれたTensorFlowは、史上最も人気のあるpythonパッケージであるGitHubに驚異的な159,000の★印を付けています。 TensorFlowは、コカ・コーラ社、ツイッター社、インテル社、およびその作成者であるグーグル社などの企業によるさまざまなディープラーニング使用事例で使われています。

機械学習に最も役立つツール、開発環境、AutoMLツールの詳細に興味がある場合は、以下の私のビデオをチェックしてください。

11. KERAS

KERASのスローガン通り、人間のために作られた深層学習フレームワークです。KERASは、新しいニューラルネットワークを迅速に開発することを可能にしました。Kerasが登場する前は、単純なシーケンシャルモデルを書くだけでも大変だったことを覚えています。

このフレームワークはTensorFlowをベースにしており、開発者が新しいアーキテクチャで新たなモデルを試す際のスタート地点となっています。TensorFlowは、ニューラルネットワークのプログラミングを始める際の参入障壁を大幅に低減し、今ではほとんどの高校生がニューラルネットワークのプログラミングを行えるようになりました。Kerasは、約52,000の★評価の人気を誇るPythonパッケージです。

12. PyTorch

深層学習分野におけるTensorFlowの主要なライバルです。ニューラルネットワークを開発するための優れた代替手段であり、私の個人的なお気に入りとなっています。
自然言語処理の分野ではPyTorchのコミュニティの方が強いと思いますが、TensorFlowは画像や動画の分野に強い傾向があります。Kerasと同様に、Pytorch Lightningという独自の簡略化されたライブラリがあります。私はこのライブラリについてのチュートリアルを作成して、貴方が深層学習を得意になるために苦労する必要がないようにしました。GitHubでの50,000の★評価は、Tensorflowに比べると少ないように見えるかもしれませんが、長い目で見ると、本当に急速に追い上げています。


Google Trendによる比較。赤Tesorflowで青がPyTorch

13. Statsmodels

Statsmodelは、ディープラーニングなどの新しい機械学習の世界とは対照的に、古典的な統計学の世界への扉です。多くの有用な統計的評価やテストが含まれています。古典的な統計学はより安定した傾向があり、データサイエンティストがたまに使うべきものであることは確かです。6,600個の★印評価は、深層学習と古典的な統計学のクールさについての比較以上の評価でしょう。

3.機械学習とデータサイエンスに有用なPythonパッケージ20(2/3)関連リンク

1)www.kdnuggets.com
The 20 Python Packages You Need For Machine Learning and Data Science

2)github.com
opencv / opencv
matplotlib / matplotlib
pypa / pip
numpy / numpy
pandas-dev / pandas
dateutil / dateutil
scikit-learn / scikit-learn
scipy / scipy
tqdm / tqdm
tensorflow / tensorflow
keras-team / keras
pytorch / pytorch
statsmodels / statsmodels
plotly / plotly.py
nltk / nltk
scrapy / scrapy
apache / spark
urllib3 / urllib3

3)www.crummy.com
Beautiful Soup

4)xgboost.readthedocs.io
XGBoost Documentation — xgboost 1.6.0-dev documentation

タイトルとURLをコピーしました