1.Googleのクラスタ管理システムのトレースデータの提供を拡充まとめ
・GoogleのBorgクラスタ管理システムは、ほとんど全てのGoogleが提供するサービスを裏で支えている
・8年前、GoogleはBorgがどのように動いているか動作を把握する事が出来るトレースデータを公開した
・この度、8年前のデータより更に詳細にリソース使用上やジョブの親子関係などがわかる情報を公開
2.Borgとは?
以下、ai.googleblog.comより「Yet More Google Compute Cluster Trace Data」の意訳です。元記事は2020年4月28日、John Wilkesさんに投稿です。
Borgの名前の由来はおそらくスタートレックに出て来る架空の機械生命体と思いますが、アイキャッチ画像はエジプトの工業都市ボルグ・エル・アラブ(madinet borg al arab)にたたずむ美人さんで、クレジットはPhoto by Tamirlan Maratov on Unsplash
GoogleのBorgクラスタ管理システムは、Googleの全てのコンピュータをサポートし、ほとんど全てのGoogleが提供するサービスを裏で支えています。
例えば、本投稿の草案作成時に使用したGoogleドキュメントを提供しているマシンは、Googleのクラウドコンピューティング製品を実行しているマシンと同様に、Borgによって管理されています。そのため、Borgシステムと、その動作は、研究者と実務家にとって大きな関心事となっています。
8年前、Googleは29日間分のクラスターのトレースデータを公開しました。2011年5月以降の、全てのジョブ実行、ジョブスケジュラーの決定、Google Borgコンピューティングクラスタ内の全てのジョブのリソース使用状況などの記録です。
このトレースデータは、クラスタースケジューラーとクラウドコンピューティングの最先端技術の進歩に関する幅広い研究を可能にし、何百もの分析と研究の生成に使用されてきました。しかし、2011年にトレースデータが利用可能になってからの数年間で、マシンとソフトウェアは進化し、動作も変更され、変更部分についての重要性が更に明確になりました。
研究者がこれらの変更を自分で探索できるように、2019年5月に、8つのGoogleコンピュートクラスターをカバーする新しいトレースデータセットをリリースしました。この新しいデータセットは、2011年のデータセットよりも大きく広範囲であり、以下のものが含まれています。
・特定時点の値だけでなく、5分間ごとのCPU使用状況のヒストグラム
・alloc setsに関する情報(ジョブが使用する共有リソースの予約状況)
・MapReduceジョブなどのマスター/ワーカー関係を持つジョブの親情報
前回提供されたトレースデータと同様に、新しいトレースデータはリソースの要求とその使用法に焦点を当てており、エンドユーザー、そのデータ、またはストレージシステムやその他のサービスへのアクセスパターンに関する情報は含まれていません。
現時点では、ローカル環境に取り込まずとも高度な分析を実行できるように、Google BigQueryを介してトレースデータを直接利用できるようにしています。github.comに、アクセス手順とトレースデータに含まれる内容の詳細な説明が記載されています。
2011年と2019年のトレースの違いの最初の分析は、論文「Borg: the Next Generation」に記載されています。
このデータがクラスター管理システムの研究を更に促進することを願っています。本データが有用だとわかったら、もしくはこれを使用する論文を発表するならば、もしくはこれを分析するツールを開発する、またはそれを改善する方法についての提案があるならば、googleclusterdata-discussのGoogleグループに知らせてください。
謝辞
新しいトレースセットの準備に多大な労力を費やしてくれたインターンのMuhammad Tirmazi、同僚のNan Deng、Md Ehtesam Haque、Zhijing Gene Qin、Steve Hand、および客員研究員Adam Barkerに特に感謝します。
3.Googleのクラスタ管理システムのトレースデータの提供を拡充関連リンク
1)ai.googleblog.com
Yet More Google Compute Cluster Trace Data
2)github.com
google/cluster-data
3)dl.acm.org
Borg: the Next Generation(PDF)
コメント