簡體   English   中英

DIY HPC 集群以運行 Jupyter/Python 筆記本

[英]DIY HPC cluster to run Jupyter/Python notebooks

我最近將我的 Python / Jupyter 工作從 macbook 遷移到翻新的第 8 代 HP 機架式服務器(192GB DDR3 2 x 8C Xeon E5-2600),我以 400 美元的價格從亞馬遜下車。 額外的 CPU 內核極大地提高了擬合模型的速度,特別是對於我經常使用的決策樹集成。 我現在正在考慮購買那個時代(2010 年代中期早期)的額外服務器(雙路或四路英特爾至強 E5、E7 v1/v2)並將它們連接成我公寓中的小型 HPC 集群。 這是我需要幫助決定的內容:

  1. 這是一個壞主意嗎? 我是否最好購買 GPU(如 gtx 1080)。 我不願意 go GPU 路線的原因是我傾向於依賴 sklearn 很多(這幾乎是我唯一知道和使用的東西)。 據我了解,model 在 GPU 上的訓練目前還不是 sklearn 生態系統的一部分。 我所有的代碼都是用 numpy/pandas/sklearn 編寫的。 因此,將存在陡峭的學習曲線和向后兼容性問題。 我錯了嗎?

  2. 假設 (1) 為真,並且 CPU 在短期內對我來說確實更好。 如何構建集群並在其上運行 Jupyter 筆記本。 是否像購買額外的服務器一樣簡單。 將其中一台服務器指定為頭節點。 通過以太網連接服務器。 在兩台機器上安裝 Centos / Rocks。 並使用 IPython Parallel (?) 啟動 Jupyter 服務器。

  3. 假設 (2) 為真,或至少部分為真。 我還需要獲得哪些其他硬件/軟件? 我需要以太網交換機嗎? 或者如果我只連接兩台機器,就不需要它了? 或者我是否需要至少三台機器來利用額外的 CPU 內核,因此需要一個交換機? 我需要安裝 Centos / Rocks 嗎? 或者軟件層是否有更好、更現代的替代方案。 就上下文而言,現在我在 HP 服務器上使用 openSUSE,在操作系統和網絡方面我幾乎是個新手。

  4. 我的硬件應該有多均勻? 我可以在機器上混合和匹配不同頻率的 CPU 和 memory 嗎? 例如,一台機器有 1600 MHz DDR3 memory,另一台機器有 1333 MHz DDR3? 還是使用 2.9 GHz E5-2600v1 和 2.6 GHz E5-2600v2 CPU?

  5. 我應該擔心權力嗎? 即我可以安全地將三台機架式服務器插入我公寓的同一個電源板上嗎? 如果我插入吹風機,我知道有一個插座,燈 go 熄滅。 所以我可能應該避免那個:) 說真的,我如何在負載下運行 2-3 台多 CPU 機器並避免使斷路器跳閘?

謝謝你。

  1. Nvidia 的rapids.ai在 GPU 上實現了相當多的 sklearn。 這是否是您使用的部分,只有您可以說。

  2. 眾所周知,使用 Jupiter notebook 進行生產是錯誤的。

  3. 除非延遲是一個嚴重的問題,否則您不需要交換機,它很少是。

  4. 完全無關。

  5. 對於您正在考慮的那種舊硬件,您將有非常高的電費。 但更糟糕的是,由於您將擁有許多不太新的機器,因此某些組件在任何給定時間發生故障的可能性都很高,因此除非您尋求計算機維護的未來,否則這不是一個好主意。 一個更好的主意是:在你的 macbook/現有集群上開發你的想法,然后租用一個 AWS Spot 實例(或兩個或三個)幾天。 更便宜,沒有麻煩,沒有大驚小怪。 一切正常。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM