簡體   English   中英

Spark 是否適合在許多節點中自動運行統計分析腳本以加快速度?

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一個 Python 腳本,它運行統計分析並對輸入數據訓練深度學習模型。 數據量相當小 (~5Mb),但由於分析腳本的復雜性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同節點上運行我的腳本,以便我可以獲得加速。 基本上,我想將輸入數據分成許多子集並並行運行分析腳本。 Spark 是實現此目的的好工具嗎? 先感謝您!

只要將深度學習 model 集成到 pyspark 管道中並使用分區,就可以期待運行時的加速。 沒有代碼,很難提出具體的建議,但這篇文章是一個很好的起點。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM