1.2020年の日本のデータサイエンティストの給与水準まとめ
・データサイエンティストの給与水準は米国が最も高くドイツと日本の企業がこれに続く
・生データのままでは日本のデータサイエンティストの2/3以上が最低時給以下で働いている
・特殊事情層を除外すると日本のデータサイエンティストの給与中央値は840万円~960万円
2.Kaggleの調査から読み解く日本のデータサイエンティストの給与水準と2020年の現状
以下、www.kdnuggets.comより「State of Data Science and Machine Learning 2020: 3 Key Findings」の意訳です。
元記事は2020年12月、Matthew Mayoさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Alexander Mils on Unsplash
Kaggle(訳注:世界中のデータサイエンティストが腕を競い合うコンペサイト)は最近、2020年のデータサイエンスと機械学習の年次調査結果を発表しました。
4年目として、Kaggleはデータ愛好家のコミュニティを調査し、急速に成長している分野のトレンドを共有しました。20,036人のKaggleメンバーからの回答に基づいて、現在データサイエンティストとして雇用されている13%(2,675人の回答者)に焦点を当てたこのレポートを作成しました。
レポートの概要は、Kaggleでご覧いただけます。または、調査の重要なまとめを確認したり、生データを閲覧して操作したりすることもできます。
時間をかけてご自分で結果を詳しく調べることをお勧めしますが、以下では、調査レポートで強調されている3つの重要な調査結果を紹介します。
1.給与格差
データサイエンティストへの給与支払いについては、11ページから始まるレポートで説明されています。「りんごとりんごの比較(基準を合わせた比較の事)」は、米国とインドを拠点とするデータサイエンティストの給与分布で行われています。
次の「りんごとオレンジの比較(基準を合わせる事が難しい比較の事)」はそれほど単純ではありません。選択された多くの国同士を比較する困難なグローバル分布と給与中央値で行われていますが、各国の生活費の違いや、データサイエンティストの給与分布とすべての国の職業の分布の違いなどの考慮事項は明らかに考慮されていません。
それにもかかわらず、14ページの国別のデータサイエンティストの給与の中央値は、グローバルなデータサイエンティストの給与に劇的な格差があることを示しています。
図1:国別のデータサイエンティストの給与の中央値
国別の最も一般的な給与を見ると、米国企業はより高い給与を支払う可能性が高いことがわかります。ドイツと日本の企業がこれに続き、他の含まれる地域よりも給与が大幅に高くなっています。
上記はアンケート回答の編集結果であることを思い出してください。これは単に生データをまとめたものです。誰かが非常に興味を持ったならば、生データを活用して、グローバルデータサイエンティストの給与のより詳細で微妙な分析と比較を実行できます。
2.JupyterLabは主要な開発環境です
これは多くの人にとって驚くことではないはずですが、JupyterLab(訳注:Jupyter notebookの後継)は、最も使用されているインタラクティブな開発環境でトップの座を維持しており、回答者の74.1%がそれを使用していると報告しています。
JupyterベースのIDEは、引き続きデータサイエンティストにとって頼りになるツールであり、Kaggleデータサイエンティストの約4分の3がそれを使用しています。
ただし、これは昨年の83%から減少しています。 Visual Studio Codeは33%強で2番手につけています。
図2:一般的に使用されているIDE
リストの残りの部分には、RStudioとMATLABに加えて、主にPythonベースのIDEと多目的テキストエディターが混在しています。このリストは、この分野でのPythonの相対的な優位性の証拠を提供するだけでなく、Rの継続的で強力な立場とMATLABの永続性を思い出させてくれます。
また、従来のIDEは、データサイエンスや機械学習であまり活用されておらず、おそらく他のプログラミング分野ほど活用されていないことも確認できます。ただし、すぐに比較できるそのようなデータがあるわけではありません。
3.採用されている手法とアルゴリズム
レポートの19ページには、データサイエンスで最もよく使用されている方法とアルゴリズムが表示されています。
図3:使用している手法とアルゴリズム
最も一般的に使用されたアルゴリズムは線形回帰とロジスティック回帰であり、決定木とランダムフォレストがそれに続きました。より複雑な手法の中では、勾配ブースティングマシンと畳み込みニューラルネットワークが最も一般的なアプローチでした。
当然のことながら、線形回帰、ロジスティック回帰、さまざまな決定木手法、および勾配ブースティングマシンがトップの座を占めています。
第二グループは、ベイジアンメソッドに加えていくつかのニューラルネットワークアーキテクチャで構成されています。最後に、transformerやGANなどの特殊なニューラルネットワークアーキテクチャ、および進化的アプローチがリストを締めくくります。
レポート全体を自分で確認することを忘れないでください。データサイエンティストのプロファイル、データサイエンスチーム、エンタープライズ機械学習の適用、自動機械学習の使用法など、追加のトピックについて詳しく知ることができます。また、データ変換や探索に関心のある人は生データを利用できることを忘れないでください。
3.2020年の日本のデータサイエンティストの給与水準グラフ
webbigdataでKaggleの元データから日本のデータのみを抜き出して表化したものは以下です。
・横軸:あなたは何歳ですか?
・縦軸:あなたの現在の年間報酬はアメリカドル換算で幾らですか?
18-21 | 22-24 | 25-29 | 30-34 | 35-39 | 40-44 | 45-49 | 50-54 | 55-59 | 60-69 | 70+ | 総計 | |
未記入 | 43 | 58 | 37 | 28 | 18 | 15 | 21 | 14 | 8 | 8 | 3 | 253 |
$0-999 | 5 | 10 | 6 | 10 | 12 | 7 | 2 | 3 | 4 | 59 | ||
1,000-1,999 | 2 | 2 | 1 | 1 | 3 | 1 | 10 | |||||
2,000-2,999 | 1 | 2 | 1 | 4 | ||||||||
3,000-3,999 | 1 | 6 | 1 | 2 | 1 | 11 | ||||||
4,000-4,999 | 5 | 1 | 1 | 1 | 2 | 2 | 2 | 14 | ||||
5,000-7,499 | 2 | 5 | 8 | 6 | 2 | 2 | 1 | 1 | 27 | |||
7,500-9,999 | 1 | 2 | 2 | 3 | 3 | 1 | 1 | 13 | ||||
10,000-14,999 | 1 | 1 | 3 | 1 | 2 | 8 | ||||||
15,000-19,999 | 1 | 1 | ||||||||||
20,000-24,999 | 1 | 2 | 1 | 4 | ||||||||
25,000-29,999 | 1 | 1 | ||||||||||
30,000-39,999 | 9 | 3 | 1 | 1 | 3 | 17 | ||||||
40,000-49,999 | 1 | 14 | 8 | 3 | 1 | 2 | 1 | 4 | 2 | 36 | ||
50,000-59,999 | 1 | 12 | 6 | 7 | 5 | 7 | 2 | 1 | 1 | 42 | ||
60,000-69,999 | 5 | 9 | 7 | 8 | 2 | 1 | 2 | 34 | ||||
70,000-79,999 | 3 | 7 | 4 | 8 | 2 | 4 | 2 | 1 | 31 | |||
80,000-89,999 | 1 | 1 | 4 | 2 | 3 | 4 | 15 | |||||
90,000-99,999 | 3 | 1 | 3 | 3 | 1 | 5 | 1 | 17 | ||||
100,000-124,999 | 1 | 3 | 4 | 3 | 5 | 6 | 1 | 1 | 24 | |||
125,000-149,999 | 2 | 2 | 5 | 3 | 1 | 13 | ||||||
150,000-199,999 | 1 | 1 | 1 | 3 | ||||||||
300,000-500,000 | 1 | 1 | ||||||||||
総計 | 43 | 71 | 114 | 92 | 74 | 66 | 69 | 45 | 30 | 30 | 4 | 638 |
令和元年10月1日に改正された東京都の最低時給は1,013円なので、週5日、8時間、50週働いたとして、年収は202.6万円。
上記表のままでは400人が最低時給以下で働いている事になるので、さすがに$15,000-$19,999より下の給与は
・勉強中/研修中
・キャリアチェンジのために収入が落ち込んでいる期間
・データサイエンティストは副業
・雇用時の職種はデータサイエンティストではない
などの何らかの特殊な事情があるフルタイムではない人達と思われます。
特殊事情層を除外すると中央値は$70,000-$79,999くらいなので840万円~960万円くらいとなります。
4.2020年の日本のデータサイエンティストの給与水準関連リンク
1)www.kdnuggets.com
State of Data Science and Machine Learning 2020: 3 Key Findings
2)www.kaggle.com
State of Data Science and Machine Learning 2020