繁体   English   中英

Spark 是否适合在许多节点中自动运行统计分析脚本以加快速度?

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一个 Python 脚本,它运行统计分析并对输入数据训练深度学习模型。 数据量相当小 (~5Mb),但由于分析脚本的复杂性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本,以便我可以获得加速。 基本上,我想将输入数据分成许多子集并并行运行分析脚本。 Spark 是实现此目的的好工具吗? 先感谢您!

只要将深度学习 model 集成到 pyspark 管道中并使用分区,就可以期待运行时的加速。 没有代码,很难提出具体的建议,但这篇文章是一个很好的起点。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM