その他の調査

データサイエンスで収入を18か月で3倍にした方法

1.データサイエンスで収入を18か月で3倍にした方法まとめ ・データサイエンティストとして働きたい業界の業務知識の習得が大事 ・ビジネス分析とMLエンジニアリング、理論よりもコードの学習に時間を費やした ・本当の需要は、利用可能なデータの助...
プライバシー

実用的な差分プライベートクラスタリング(2/2)

1.実用的な差分プライベートクラスタリング(2/2)まとめ ・プライベート・クラスタリング・アルゴリズムの前処理は通常と異なるので留意が必要 ・今回のアルゴリズムは全てのデータポイントが収まるような半径の入力が必要 ・半径が正確である必要は...
プライバシー

実用的な差分プライベートクラスタリング(1/2)

1.実用的な差分プライベートクラスタリング(1/2)まとめ ・k-meansクラスタリングは機密性の高いデータセットを処理する際は問題がある ・データポイントが他と大幅に離れていると単一のクラスタを構成してしまうため ・差分プライバシー方式...
入門/解説

FugueSQL:PandasのDataFrameをSQL文で操作(2/2)

1.FugueSQL:PandasのDataFrameをSQL文で操作(2/2)まとめ ・SQL文を文字列して定義後、fsql(SQL).run()を呼ぶ事で実行する事ができる ・結果として返される型はfugue.dataframe形式であ...
入門/解説

FugueSQL:PandasのDataFrameをSQL文で操作(1/2)

1.FugueSQL:PandasのDataFrameをSQL文で操作(1/2)まとめ ・Pandasは、Pythonで表形式データを扱う際に良く利用されるデータ構造 ・Pythonに精通していない人にとってSQLでDataFramesを操...
アプリケーション

スプレッドシート内で使用される数式を周辺セルから予測

1.スプレッドシート内で使用される数式を周辺セルから予測 ・Google スプレッドシートの数式は便利だが初心者は間違いをしやすい ・目標セル周辺の豊富な文脈情報に基づいて数式を自動生成するモデルを開発 ・このモデルは既にユーザーが一般的に...
入門/解説

機械学習とデータサイエンスに有用なPythonパッケージ20(3/3)

1.機械学習とデータサイエンスに有用なPythonパッケージ20(3/3)まとめ ・Plotlyは視覚化ツールでとっつきにくいがMatplolibに追いつくかもしれない ・Scrapy、Beautiful Soupはクローリングやスクレイピ...
入門/解説

機械学習とデータサイエンスに有用なPythonパッケージ20(2/3)

1.機械学習とデータサイエンスに有用なPythonパッケージ20(2/3)まとめ ・Scipyライブラリは様々な科学技術計算用パッケージの土台 ・自然言語処理はPyTorchが強くTensorFlowは画像や動画に強い ・PyTorchはT...
入門/解説

機械学習とデータサイエンスに有用なPythonパッケージ20(1/3)

1.機械学習とデータサイエンスに有用なPythonパッケージ20(1/3)まとめ ・機械学習/データサイエンス関連タスクをPythonで行う際のお勧めパッケージ20選 ・機械学習エンジニアおよびPythonプログラマのキャリアの中で役立つと...
基礎理論

Underspecification:検証データで測定した精度のみに頼る事の落とし穴(3/3)

1.Underspecification:検証データで測定した精度のみに頼る事の落とし穴(2/3)まとめ ・標準的な検証データセットを使ったテストだけでは医療用モデルの動作を保証できていない ・自然言語処理など他のタスクでも性別に相関する挙...
基礎理論

Underspecification:検証データで測定した精度のみに頼る事の落とし穴(2/3)

1.Underspecification:検証データで測定した精度のみに頼る事の落とし穴(2/3)まとめ ・ImageNetで良好に機能する画像分類モデルは破損画像では不十分な性能しか出せない ・ImageNetで同等パフォーマンスを達成す...
基礎理論

Underspecification:検証データで測定した精度のみに頼る事の落とし穴(1/3)

1.Underspecification:検証データで測定した精度のみに頼る事の落とし穴(1/3)まとめ ・機械学習モデルは現実世界で使用すると予期していなかった動作をする事がある ・検証を行ったモデルであっても製品展開後に一貫性がなくなる...