[英]Spark Structured Streaming performance for Scala vs Python
大家好~我打算用Kafka + Spark Structured Streaming开发一个小批量程序。 但是我很困惑,到底是用python还是scala,哪个更快。 如果在 Scala 和 Python 之间有任何关于 Spark Structured Streaming 的基准性能结果会更好。
不是真正的问题。
唯一的问题是 1) Scala 速度更快,但每个微批次的数据规模可能意味着影响更小,并且 2) Scala 具有类型的数据集支持,pyspark 没有。
大多数人将 Scala、pyspark 更多地用于数据科学。
也就是说,使用 pyspark 进行实时机器学习可能会更好。 参见例如: https://towardsdatascience.com/building-a-real-time-prediction-pipeline-using-spark-structured-streaming-and-microservices-626dc20899eb
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.