標簽[spark-submit] - 堆棧內存溢出

帶有 delta lake 的 spark-sql/spark-submit 導致 null 指針異常（在 org.apache.spark.storage.BlockManagerMasterEndpoint）

[英]spark-sql/spark-submit with delta lake is resulting null pointer exception (at org.apache.spark.storage.BlockManagerMasterEndpoint)

我通過提交以下命令在使用 pyspark 時使用 delta lake 系統規格：火花 - 3.0.3 scala - 2.12.10 java - 1.8.0 hadoop - 2.7 我在看參考博客https://docs.delta.io/latest/quick-start.htm ...

通過 Linux 服務器連接到遠程 Hadoop 集群 (CDP)

[英]Connection to remote Hadoop Cluster (CDP) through Linux server

我是 PySpark 的新手，我想使用 spark-submit 命令通過 Linux 服務器連接遠程 Hadoop 集群 (CDP)。任何幫助，將不勝感激。我需要 spark-submit 命令來連接遠程 CDP。 ...

ModuleNotFoundError：使用 foreach function 和 PySpark 時沒有名為 X 的模塊

[英]ModuleNotFoundError: No module named X when using foreach function with PySpark

我目前在foreach function 和Pyspark中使用外部 Python 模塊（orjson）時遇到錯誤。如果我在foreach function（ collect()方法）之外使用該模塊，一切都很好。下面是我的簡單代碼但是如您所知，在使用collect()之后迭代大數據絕不是一個好 ...

ClassNotFoundException: org.apache.beam.runners.spark.io.SourceRDD$SourcePartition 在火花提交期間

[英]ClassNotFoundException: org.apache.beam.runners.spark.io.SourceRDD$SourcePartition during spark submit

我使用 spark-submit 來激發獨立集群來執行我的陰影 jar，但是執行程序出現錯誤：我的請求看起來像：由於在我的 jar 中使用了 proto3，我設置了“spark.driver.userClassPathFirst”：“true”和“spark.executor.userClass ...

火花提交：NoSuchMethodError：com.fasterxml.jackson.databind.JsonMappingException

[英]spark-submit: NoSuchMethodError: com.fasterxml.jackson.databind.JsonMappingException

該方法屬於 SparkSession，名稱為 getOrCreate() 詳細的例外是有人說是版本沖突，我不同意。因為我檢查了我的spark版本，它是spark_core_2.12-3.2.1和jackson版本是2.12.3和spark_version是3.2.1-bin-hadoop2.7 ...

停止 spark 日志警告“截斷了計划的字符串表示...”

[英]Stop spark log warning "Truncated the string representation of a plan ...."

我正在嘗試使用 log4j2 RegexFilter 來過濾火花警告Truncated the string representation of a plan since it was too long 。 Spark 記錄此警告是因為我正在設置配置選項spark.sql.maxPlanStri ...

spark-submit 在 macOS 上使用 fatjar 加載 class 時出錯

[英]spark-submit error loading class with fatjar on macOS

我正在嘗試運行一個簡單的 hello world spark 應用程序這是我的代碼這是我的 build.gradle 這是項目結構我的火花提交腳本是 scala 和 spark 都安裝在我的 mac 上當我在 spark-submit 上面運行時，它無法顯示 **Error: Failed ...

數據處理集群中的 Spark 提交生成 java.lang.ClassNotFoundException：

[英]Spark-submit in dataproc cluster generating java.lang.ClassNotFoundException:

spark-submit 在本地集群上運行良好，沒有任何問題。由於資源限制，我轉向了基於雲的計算。目前，我在 Google Cloud Dataproc 中運行一個 spark-cluster，我有 1 個 master 和 4 個 worker。當我提交作業時，出現以下錯誤：我的提交命 ...

如何在 dataproc 中使用 --properties-file 標志？

[英]How to use --properties-file flag in dataproc?

在進行 spark-submit 時，Gcloud 提供了使用 --properties-file 傳遞集群屬性和 spark 配置的選項。我不確定在運行作業時如何使用它。 ...

如何獲得 spark-sbumit 日志記錄結果

[英]how to get spark-sbumit logging result

當我在終端上提交 Spark 作業時，它的日志記錄結果類似於終端中的圖像。我怎樣才能得到它並將其設置為 value 或 object？ ...

spark-submit 向驅動程序發送錯誤的 java 路徑

[英]spark-submit sends wrong java path to driver

賞金將在 14 小時后到期。此問題的答案有資格獲得+50聲望賞金。 o_O想引起對這個問題的更多關注。我正在向本地運行的容器化 Spark 集群提交作業。火花版本 3.2.1。我正在使用 bitnami 的 spark 容器圖像。作業用 scala 編寫。我創建了一個'fat-jar ...

無法將 scala.collection.immutable.List$SerializationProxy 的實例分配給字段 org.apache.spark.ZAC5C74B64B4B8352EF2F181AFFB2AC2AZ.execution.dataSource.RD。

[英]cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.datasources.v2.DataSourceRDD

我正在嘗試使用 airflow 向 k8s spark 集群提交 pyspark 作業。在那個火花作業中，我正在使用 writestream foreachBatch function 來寫入流數據，而不管接收器類型如何，僅在我嘗試寫入數據時才會遇到此問題： spark集群內部版本：spark ...

如何在 linux 中獲取最后一個命令的狀態及其 output

[英]how to get the status of the last command along with its output in linux

我正在嘗試獲取最后一個命令的狀態，我還希望將 output 存儲在日志文件中。但作為 $? 正在檢查最后一個狀態命令，它始終顯示為 0，即成功，因為我正在將 output 寫入日志文件。有人可以幫助我如何獲取狀態以及將 spark-submit 的日志寫入日志文件 ...

spark-submit python 帶有 venv 的包無法運行程序

[英]spark-submit python packages with venv cannot run program

我按照這篇文章封裝了fuzzy-c-means 庫以在火花集群上運行，我在docker 上使用bitnami/spark 圖像。我已經使用 python 圖像構建了一個帶有 python 3.7 的 venv 並安裝了fuzzy-c-means 庫。然后我使用 venv-pack 將 venv ...

集群模式下spark-submit的log文件中不記錄print語句

[英]print statement is not recorded in log file in spark-submit in cluster mode

我有以下 pyspark 代碼名為 sample.py 並帶有打印語句以下帶有 sample.log 的 spark-submit 未打印打印語句場景是我們想在日志文件中打印一些信息，以便在 spark 作業完成后基於日志文件中的打印語句，我們將執行一些其他操作。請幫助我 ...

spark-submit 不適用於 avtiva jdbc 驅動程序

[英]spark-submit doesn't work with avtiva jdbc driver

我正在嘗試使用連接到 Druid 的簡單查詢操作編寫火花作業。根據德魯伊文檔，我正在使用 avatica jdbc 驅動程序連接到德魯伊。示例代碼：在執行 scala 代碼時，我能夠連接到 Druid，但是一旦我構建了 jar 並嘗試使用spark-submit運行它，我就會收到以下錯誤： ...

初始工作沒有接受任何資源；檢查您的集群 UI 以確保工作人員已注冊並有足夠的資源錯誤

[英]Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources error

我是火花新手。我將通過使用開始火花但是我收到了這個錯誤並且我堅持了這一點，如果你能幫助我，我將非常感激。我知道這是關於工人的，但我真的不知道如何克服這個問題。 ...

在mac上打開一個端口用於本地運行spark

[英]Open a port on mac for locally running spark

我在我的 mac 上本地運行一個獨立的 Spark 3.2.1，通過 brew 安裝。這是為了低成本（免費）的單元測試目的。我從終端通過 pyspark 命令啟動這個實例，並且能夠訪問實例 web ui。我還嘗試在本地（從同一台 Mac）運行 spark-submit 以在上述 pyspar ...

gcloud spark提交：路徑不存在：hdfs://cluster-xxxx-m/user/root/--；

[英]gcloud spark submit:Path does not exist: hdfs://cluster-xxxx-m/user/root/--;

我正在嘗試使用gsutil從 Airflow 提交我的 spark 作業。這是我的gcloud命令： gcloud dataproc jobs submit spark --cluster=xxx --region=us-central1 --class=com.xxx --jars=gs:// ...

嘗試在 Airflow 中獲取 spark 連接 ID 時出錯

[英]Error while try getting spark connection id in Airflow

我在SparkSubmitOperator DAG 中的 SparkSubmitOperator 如下所示，下面是我在 Airflow UI 中connection_id 'spark_local' 當我嘗試運行我的 DAG 時出現此錯誤，如果我在這里遺漏任何東西，有人可以幫助我嗎？ Spar ...