簡體   English   中英

分布式分布式集群管理

[英]Dask.distributed cluster administration

我正在安裝Dask Python集群(30台機器,平均每個8核)。 人們僅使用其CPU能力的一部分,因此, dask-workers將以低優先級在后台運行。 所有工作人員都在我的主節點上收聽dask-scheduler 僅當我使用它時,它才能完美運行,但是它將被多個人同時使用-因此,我需要能夠管理此集群:

  • 驗證用戶身份,拒絕未知信息
  • 確定誰提交了哪些工作
  • 限制每個用戶提交的作業數
  • 限制每個作業的計算超時
  • 以管理員身份終止任何工作

dask.distributed開箱即用提供了上述一些功能。 您能否請您提供一些解決方案的建議(可能是混合式Dask和其他功能)?

通常人們使用集群管理器,例如Kubernetes,Yarn,SLURM,SGE,PBS或其他東西。 該系統處理用戶身份驗證,資源管理等。 然后,用戶可以根據需要使用Dask-kubernetes,Dask-yarn,Dask-jobqueue項目之一在集群上創建自己的短期調度程序和工作程序。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM