org.apache.spark.SparkException：寫入作業在 Databricks 上中止

Question

我使用 Databricks 從 Event Hub 攝取數據，並使用 Pyspark Streaming 實時處理它。 代碼工作正常，但在這一行之后：

df.writeStream.trigger(processingTime='100 seconds').queryName("myquery")\
  .format("console").outputMode('complete').start()

我收到以下錯誤：

org.apache.spark.SparkException: Writing job aborted.
Caused by: java.io.InvalidClassException: org.apache.spark.eventhubs.rdd.EventHubsRDD; local class incompatible: stream classdesc

我讀到這可能是由於處理能力低，但我使用的是 Standard_F4 機器，標准集群模式啟用了自動縮放。

有任何想法嗎？

Answer 1

這看起來像 JAR 問題。 Go 到 spark 中的 JAR 文件夾，並檢查是否有多個 jars 用於 azure-eventhubs-spark_XXX.XX。 我想你已經下載了它的不同版本並將它放在那里，你應該從你的收藏中刪除任何具有該名稱的 JAR。 如果您的 JAR 版本與其他 JAR 不兼容，也可能出現此錯誤。 嘗試使用 spark config 添加 spark jars。

spark = SparkSession \
            .builder \
            .appName('my-spark') \
            .config('spark.jars.packages', 'com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.12') \
            .getOrCreate()

這樣spark會通過maven下載JAR文件。

org.apache.spark.SparkException：寫入作業在 Databricks 上中止

問題描述

1 個解決方案

解決方案1
0 2021-12-26 22:10:25

org.apache.spark.SparkException：寫入作業在 Databricks 上中止

問題描述

1 個解決方案

解決方案1 0 2021-12-26 22:10:25

解決方案1
0 2021-12-26 22:10:25