標簽[spark-shell] - 堆棧內存溢出

[英]How to change spark session in spark shell?

我一直在嘗試使用相同的火花上下文進行多個火花會話。啟動 spark-shell 后，我可以使用以下命令創建一個新的 spark session。val spark2 = spark.newSession(); spark2: org.apache.spark.sql.SparkSession = ...

帶有 delta lake 的 spark-sql/spark-submit 導致 null 指針異常（在 org.apache.spark.storage.BlockManagerMasterEndpoint）

[英]spark-sql/spark-submit with delta lake is resulting null pointer exception (at org.apache.spark.storage.BlockManagerMasterEndpoint)

我通過提交以下命令在使用 pyspark 時使用 delta lake 系統規格：火花 - 3.0.3 scala - 2.12.10 java - 1.8.0 hadoop - 2.7 我在看參考博客https://docs.delta.io/latest/quick-start.htm ...

如何使用 spark-shell SQL 中的數據讀取新表？

[英]How to read new table with data in spark-shell SQL?

我是火花 shell 的新手，我正在嘗試添加新表並閱讀它。我添加了這個文件：工人.txt：並運行命令：但是正如您所見，表只有空值，這是為什么呢？文件workers.txt 位於相同的工作目錄中。 ...

為什么 spark-shell 在通過反射調用 newInstance 時拋出 NoSuchMethodException

[英]Why spark-shell throws NoSuchMethodException while calling newInstance via reflection

如果我在 REPL 中定義 class 然后通過反射調用 newInstance，則 spark-shell 會拋出NoSuchMethodException 。但是相同的代碼在本機 scala REPL 中工作正常： spark-shell REPL 和原生 scala REPL 有什么區別 ...

spark-shell 無法安裝 apache spark。錯誤：系統找不到指定的路徑

[英]spark-shell not working on installing apache spark. Error: system cannot find the path specified

我安裝了 Apache Spark，還安裝了 java 和 python。按照本文設置環境變量： https://phoenixnap.com/kb/install-spark-on-windows-10 我還安裝了 winutils.exe。最初我收到如下錯誤：對於 SPARK_HOME 環 ...

有沒有辦法在 spark shell 中重新運行粘貼的代碼塊？

[英]Is there a way to rerun a pasted block of code in spark shell?

我定期將代碼塊復制到 spark-shell 並使用 :paste ctrl-d 有時它會出錯，因為首先需要另一行代碼，例如導入。一旦我添加了任何其他要求，我想重新運行整個粘貼的塊。是否有這樣做的捷徑，而不是重新復制，重新粘貼？類似於反向搜索但針對整個塊的東西。 ...

Spark-Shell Scala Dataset 只顯示查詢中的幾列

[英]Spark-Shell Scala Dataset Display only a few columns in query

我試圖只顯示 Scala 中的幾列，例如姓名、地址和 zip 到目前為止我有這個...... 但是不能只使用過濾器顯示 3 列 ...

使用 Pyspark 加載文本文件並將其存儲在 Dataframe

[英]Load Text Files and store it in Dataframe using Pyspark

我正在將 pig 腳本遷移到 pyspark，我是 Pyspark 的新手，所以我在數據加載時遇到了困難。我的豬腳本看起來像： Bag1 = LOAD '/refined/em/em_results/202112/' 使用 PigStorage('\u1') AS (PAYER_SHORT: ...

在 Hive/Spark 中動態地將行旋轉/轉置到列

[英]Dynamically Pivot/Transpose Rows to Columns in Hive/Spark

我有季度基礎數據，數據隨着季度的增長而不斷動態增長- 當季度數較少時，我每次都手動編輯查詢並嘗試如下查詢來轉置它 - 但我的查詢是如何以動態方式和更穩健的方式激活它以將行轉置為列並牢記不斷增長的四分之一，並且隨着四分之一的增長還具有適當的四分之一列名稱。總之，我正在尋找如何使用更動態的查詢來執行此 ...

以 2 種不同方式創建的同一 Spark Dataframe 在同一查詢中獲得不同的執行時間

[英]Same Spark Dataframe created in 2 different ways gets different execution times in same query

我以兩種方式創建了相同的 Spark Dataframe，以便在其上運行 Spark SQL。 1.我使用以下命令將 a.csv 文件中的數據直接讀取到 Spark shell 中的 Dataframe 中： 2.我在 MongoDB 中從同一個文件中創建了一個集合。csv 文件，然后使用 Sp ...

Spark SQL 和 MongoDB 對相同數據的查詢執行時間不會產生預期結果

[英]Spark SQL and MongoDB query execution times on the same data don't produce expected results

這是一個普遍的問題，但我希望有人可以回答。我正在比較 MongoDB 和 Spark SQL 之間的查詢執行時間。具體來說，我從 a.csv 文件中創建了一個包含 100 萬個條目的 MongoDB 集合，並使用 Compass 中的 mongosh 對其進行了一些查詢。然后使用 Spark ...

Spark Shell：SQL 數據為整數/雙精度時查詢不返回任何結果

[英]Spark Shell: SQL Query doesn't return any results when data is integer/double

我正在使用 MongoDB Spark 連接器從 MongoDB 導入數據，然后執行一些 SQL 查詢。我將在進入實際問題之前描述整個過程，以防我做錯了什么，因為這是我第一次使用這些工具。我用特定的集合初始化 spark-shell，包括連接器 package：我啟用連接器：我制作了我想要的 ...

Spark-shell 不導入指定的 jar 文件

[英]Spark-shell does not import specified jar file

一般來說，我是所有這些東西的完整初學者，所以如果我錯過了一些完全明顯的步驟，請原諒。我安裝了 spark 3.1.2 和 cassandra 3.11.11，我試圖通過本指南將它們連接起來，我發現我在哪里做了一個胖 jar 來執行。在我發布的鏈接中，當他們使用 jar 文件執行 spark-sh ...

如何使用數組類型列從 CSV 加載數據以觸發數據幀

[英]How to load data, with array type column, from CSV to spark dataframes

我有 CSV 文件，如圖所示：加載數據時，默認情況下所有列都作為字符串加載。所以我將自定義模式定義為String 、 Integer 、 Array 、 Integer數據類型：當我使用自定義模式加載數據時，它會拋出錯誤運行命令后的終端截圖如何通過將列制作為數組來加載數據以觸發數據幀？ ...

Spark/Hadoop/Scala/Java/Python 之間是否存在版本兼容性問題？

[英]Is there a version compatibility issue between Spark/Hadoop/Scala/Java/Python?

我在通過 cmd 運行 spark-shell 命令時遇到錯誤，但不幸的是到目前為止沒有任何運氣。我安裝了 Python/Java/Spark/Hadoop(winutils.exe)/Scala，版本如下：蟒蛇：3.7.3 Java：1.8.0_311 火花：3.2.0 ...

spark-shell 異常 org.apache.spark.SparkException：awaitResult 中拋出的異常

[英]spark-shell exception org.apache.spark.SparkException: Exception thrown in awaitResult

使用 yarn master 啟動 spark-shell 時遇到以下錯誤。 Shell 正在與 spark local master 合作。下面是spark-defaults.conf 火花版本：- spark-2.4.5-bin-hadoop2.7 hadoop 版本：- hadoop-2 ...

在 linux 機器上使用 s3a 失敗 > 100 列鑲木地板

[英]Using s3a on linux machine fail for >100 columns parquet

我正在使用 s3a 從數據庫讀取 dataframe 並寫入.parquet(s3a://bucketname//folder)。它適用於 <100 列 dataframe 但 crash.exits spark-shell 用於 >~100 列。如果這是列限制/版本問題/內存問題， ...

如何通過刪除字段周圍的引號和雙引號來格式化 CSV 數據

[英]How to format CSV data by removing quotes and double-quotes around fields

我正在使用一個數據集，顯然它的每一行都有“雙引號”。我看不到它，因為當我使用瀏覽器時，它默認以 Excel 打開。數據集如下所示（原始）： "age;"job";"marital";"education";"default";"balance";"housing";"loan";"contact ...

package 部署中的 object SparkHadoopUtil 無法在 package org.ZB6EFD606D118D0F6206.

[英]object SparkHadoopUtil in package deploy cannot be accessed in package org.apache.spark.deploy

為什么 SparkHadoopUtil 在此處無法訪問，而在較低版本的 spark 中即使已導入也可以訪問？ ...

在 windows 上的 Git Bash 中設置 Spark-shell

[英]Setting up Spark-shell in Git Bash on windows

我的系統上的任何其他軟件都沒有遇到過這個問題。能夠在 window 終端/命令提示符和 Git-Bash 中安裝和運行所有內容最近，我開始學習 Spark。安裝 Spark 設置所有 JAVA_HOME、SCALA_HOME、hadoop winutils 文件。 Spark-shell 和 ...