簡體   English   中英

Scala 與 Python 的 Spark 結構化流性能

[英]Spark Structured Streaming performance for Scala vs Python

大家好~我打算用Kafka + Spark Structured Streaming開發一個小批量程序。 但是我很困惑,到底是用python還是scala,哪個更快。 如果在 Scala 和 Python 之間有任何關於 Spark Structured Streaming 的基准性能結果會更好。

不是真正的問題。

唯一的問題是 1) Scala 速度更快,但每個微批次的數據規模可能意味着影響更小,並且 2) Scala 具有類型的數據集支持,pyspark 沒有。

大多數人將 Scala、pyspark 更多地用於數據科學。

也就是說,使用 pyspark 進行實時機器學習可能會更好。 參見例如: https://towardsdatascience.com/building-a-real-time-prediction-pipeline-using-spark-structured-streaming-and-microservices-626dc20899eb

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM