cost 326 ms
帶有 delta lake 的 spark-sql/spark-submit 導致 null 指針異常(在 org.apache.spark.storage.BlockManagerMasterEndpoint)

[英]spark-sql/spark-submit with delta lake is resulting null pointer exception (at org.apache.spark.storage.BlockManagerMasterEndpoint)

我通過提交以下命令在使用 pyspark 時使用 delta lake 系統規格: 火花 - 3.0.3 scala - 2.12.10 java - 1.8.0 hadoop - 2.7 我在看參考博客https://docs.delta.io/latest/quick-start.htm ...

ModuleNotFoundError:使用 foreach function 和 PySpark 時沒有名為 X 的模塊

[英]ModuleNotFoundError: No module named X when using foreach function with PySpark

我目前在foreach function 和Pyspark中使用外部 Python 模塊(orjson)時遇到錯誤。 如果我在foreach function( collect()方法)之外使用該模塊,一切都很好。 下面是我的簡單代碼 但是如您所知,在使用collect()之后迭代大數據絕不是一個好 ...

ClassNotFoundException: org.apache.beam.runners.spark.io.SourceRDD$SourcePartition 在火花提交期間

[英]ClassNotFoundException: org.apache.beam.runners.spark.io.SourceRDD$SourcePartition during spark submit

我使用 spark-submit 來激發獨立集群來執行我的陰影 jar,但是執行程序出現錯誤: 我的請求看起來像: 由於在我的 jar 中使用了 proto3,我設置了“spark.driver.userClassPathFirst”:“true”和“spark.executor.userClass ...

火花提交:NoSuchMethodError:com.fasterxml.jackson.databind.JsonMappingException

[英]spark-submit: NoSuchMethodError: com.fasterxml.jackson.databind.JsonMappingException

該方法屬於 SparkSession,名稱為 getOrCreate() 詳細的例外是 有人說是版本沖突,我不同意。 因為我檢查了我的spark版本,它是spark_core_2.12-3.2.1和jackson版本是2.12.3和spark_version是3.2.1-bin-hadoop2.7 ...

數據處理集群中的 Spark 提交生成 java.lang.ClassNotFoundException:

[英]Spark-submit in dataproc cluster generating java.lang.ClassNotFoundException:

spark-submit 在本地集群上運行良好,沒有任何問題。 由於資源限制,我轉向了基於雲的計算。 目前,我在 Google Cloud Dataproc 中運行一個 spark-cluster,我有 1 個 master 和 4 個 worker。 當我提交作業時,出現以下錯誤: 我的提交命 ...

spark-submit 向驅動程序發送錯誤的 java 路徑

[英]spark-submit sends wrong java path to driver

賞金將在 14 小時后到期。 此問題的答案有資格獲得+50聲望賞金。 o_O想引起對這個問題的更多關注。 我正在向本地運行的容器化 Spark 集群提交作業。 火花版本 3.2.1。 我正在使用 bitnami 的 spark 容器圖像。 作業用 scala 編寫。 我創建了一個'fat-jar ...

無法將 scala.collection.immutable.List$SerializationProxy 的實例分配給字段 org.apache.spark.ZAC5C74B64B4B8352EF2F181AFFB2AC2AZ.execution.dataSource.RD。

[英]cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.datasources.v2.DataSourceRDD

我正在嘗試使用 airflow 向 k8s spark 集群提交 pyspark 作業。 在那個火花作業中,我正在使用 writestream foreachBatch function 來寫入流數據,而不管接收器類型如何,僅在我嘗試寫入數據時才會遇到此問題: spark集群內部版本:spark ...

如何在 linux 中獲取最后一個命令的狀態及其 output

[英]how to get the status of the last command along with its output in linux

我正在嘗試獲取最后一個命令的狀態,我還希望將 output 存儲在日志文件中。 但作為 $? 正在檢查最后一個狀態命令,它始終顯示為 0,即成功,因為我正在將 output 寫入日志文件。 有人可以幫助我如何獲取狀態以及將 spark-submit 的日志寫入日志文件 ...

集群模式下spark-submit的log文件中不記錄print語句

[英]print statement is not recorded in log file in spark-submit in cluster mode

我有以下 pyspark 代碼名為 sample.py 並帶有打印語句 以下帶有 sample.log 的 spark-submit 未打印打印語句 場景是我們想在日志文件中打印一些信息,以便在 spark 作業完成后基於日志文件中的打印語句,我們將執行一些其他操作。 請幫助我 ...

spark-submit 不適用於 avtiva jdbc 驅動程序

[英]spark-submit doesn't work with avtiva jdbc driver

我正在嘗試使用連接到 Druid 的簡單查詢操作編寫火花作業。 根據德魯伊文檔,我正在使用 avatica jdbc 驅動程序連接到德魯伊。 示例代碼: 在執行 scala 代碼時,我能夠連接到 Druid,但是一旦我構建了 jar 並嘗試使用spark-submit運行它,我就會收到以下錯誤: ...

初始工作沒有接受任何資源; 檢查您的集群 UI 以確保工作人員已注冊並有足夠的資源錯誤

[英]Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources error

我是火花新手。 我將通過使用開始火花 但是我收到了這個錯誤並且我堅持了這一點,如果你能幫助我,我將非常感激。 我知道這是關於工人的,但我真的不知道如何克服這個問題。 ...

在mac上打開一個端口用於本地運行spark

[英]Open a port on mac for locally running spark

我在我的 mac 上本地運行一個獨立的 Spark 3.2.1,通過 brew 安裝。 這是為了低成本(免費)的單元測試目的。 我從終端通過 pyspark 命令啟動這個實例,並且能夠訪問實例 web ui。 我還嘗試在本地(從同一台 Mac)運行 spark-submit 以在上述 pyspar ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM