繁体   English   中英

Scala 与 Python 的 Spark 结构化流性能

[英]Spark Structured Streaming performance for Scala vs Python

大家好~我打算用Kafka + Spark Structured Streaming开发一个小批量程序。 但是我很困惑,到底是用python还是scala,哪个更快。 如果在 Scala 和 Python 之间有任何关于 Spark Structured Streaming 的基准性能结果会更好。

不是真正的问题。

唯一的问题是 1) Scala 速度更快,但每个微批次的数据规模可能意味着影响更小,并且 2) Scala 具有类型的数据集支持,pyspark 没有。

大多数人将 Scala、pyspark 更多地用于数据科学。

也就是说,使用 pyspark 进行实时机器学习可能会更好。 参见例如: https://towardsdatascience.com/building-a-real-time-prediction-pipeline-using-spark-structured-streaming-and-microservices-626dc20899eb

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM