cost 276 ms
帶有 delta lake 的 spark-sql/spark-submit 導致 null 指針異常(在 org.apache.spark.storage.BlockManagerMasterEndpoint)

[英]spark-sql/spark-submit with delta lake is resulting null pointer exception (at org.apache.spark.storage.BlockManagerMasterEndpoint)

我通過提交以下命令在使用 pyspark 時使用 delta lake 系統規格: 火花 - 3.0.3 scala - 2.12.10 java - 1.8.0 hadoop - 2.7 我在看參考博客https://docs.delta.io/latest/quick-start.htm ...

如何使用 spark-shell SQL 中的數據讀取新表?

[英]How to read new table with data in spark-shell SQL?

我是火花 shell 的新手,我正在嘗試添加新表並閱讀它。 我添加了這個文件: 工人.txt: 並運行命令: 但是正如您所見,表只有空值,這是為什么呢? 文件workers.txt 位於相同的工作目錄中。 ...

為什么 spark-shell 在通過反射調用 newInstance 時拋出 NoSuchMethodException

[英]Why spark-shell throws NoSuchMethodException while calling newInstance via reflection

如果我在 REPL 中定義 class 然后通過反射調用 newInstance,則 spark-shell 會拋出NoSuchMethodException 。 但是相同的代碼在本機 scala REPL 中工作正常: spark-shell REPL 和原生 scala REPL 有什么區別 ...

spark-shell 無法安裝 apache spark。 錯誤:系統找不到指定的路徑

[英]spark-shell not working on installing apache spark. Error: system cannot find the path specified

我安裝了 Apache Spark,還安裝了 java 和 python。 按照本文設置環境變量: https://phoenixnap.com/kb/install-spark-on-windows-10 我還安裝了 winutils.exe。 最初我收到如下錯誤: 對於 SPARK_HOME 環 ...

有沒有辦法在 spark shell 中重新運行粘貼的代碼塊?

[英]Is there a way to rerun a pasted block of code in spark shell?

我定期將代碼塊復制到 spark-shell 並使用 :paste ctrl-d 有時它會出錯,因為首先需要另一行代碼,例如導入。 一旦我添加了任何其他要求,我想重新運行整個粘貼的塊。 是否有這樣做的捷徑,而不是重新復制,重新粘貼? 類似於反向搜索但針對整個塊的東西。 ...

在 Hive/Spark 中動態地將行旋轉/轉置到列

[英]Dynamically Pivot/Transpose Rows to Columns in Hive/Spark

我有季度基礎數據,數據隨着季度的增長而不斷動態增長- 當季度數較少時,我每次都手動編輯查詢並嘗試如下查詢來轉置它 - 但我的查詢是如何以動態方式和更穩健的方式激活它以將行轉置為列並牢記不斷增長的四分之一,並且隨着四分之一的增長還具有適當的四分之一列名稱。 總之,我正在尋找如何使用更動態的查詢來執行此 ...

以 2 種不同方式創建的同一 Spark Dataframe 在同一查詢中獲得不同的執行時間

[英]Same Spark Dataframe created in 2 different ways gets different execution times in same query

我以兩種方式創建了相同的 Spark Dataframe,以便在其上運行 Spark SQL。 1.我使用以下命令將 a.csv 文件中的數據直接讀取到 Spark shell 中的 Dataframe 中: 2.我在 MongoDB 中從同一個文件中創建了一個集合。csv 文件,然后使用 Sp ...

Spark SQL 和 MongoDB 對相同數據的查詢執行時間不會產生預期結果

[英]Spark SQL and MongoDB query execution times on the same data don't produce expected results

這是一個普遍的問題,但我希望有人可以回答。 我正在比較 MongoDB 和 Spark SQL 之間的查詢執行時間。 具體來說,我從 a.csv 文件中創建了一個包含 100 萬個條目的 MongoDB 集合,並使用 Compass 中的 mongosh 對其進行了一些查詢。 然后使用 Spark ...

Spark Shell:SQL 數據為整數/雙精度時查詢不返回任何結果

[英]Spark Shell: SQL Query doesn't return any results when data is integer/double

我正在使用 MongoDB Spark 連接器從 MongoDB 導入數據,然后執行一些 SQL 查詢。 我將在進入實際問題之前描述整個過程,以防我做錯了什么,因為這是我第一次使用這些工具。 我用特定的集合初始化 spark-shell,包括連接器 package: 我啟用連接器: 我制作了我想要的 ...

Spark-shell 不導入指定的 jar 文件

[英]Spark-shell does not import specified jar file

一般來說,我是所有這些東西的完整初學者,所以如果我錯過了一些完全明顯的步驟,請原諒。 我安裝了 spark 3.1.2 和 cassandra 3.11.11,我試圖通過本指南將它們連接起來,我發現我在哪里做了一個胖 jar 來執行。 在我發布的鏈接中,當他們使用 jar 文件執行 spark-sh ...

如何使用數組類型列從 CSV 加載數據以觸發數據幀

[英]How to load data, with array type column, from CSV to spark dataframes

我有 CSV 文件,如圖所示: 加載數據時,默認情況下所有列都作為字符串加載。 所以我將自定義模式定義為String 、 Integer 、 Array 、 Integer數據類型: 當我使用自定義模式加載數據時,它會拋出錯誤運行命令后的終端截圖 如何通過將列制作為數組來加載數據以觸發數據幀? ...

如何通過刪除字段周圍的引號和雙引號來格式化 CSV 數據

[英]How to format CSV data by removing quotes and double-quotes around fields

我正在使用一個數據集,顯然它的每一行都有“雙引號”。 我看不到它,因為當我使用瀏覽器時,它默認以 Excel 打開。 數據集如下所示(原始): "age;"job";"marital";"education";"default";"balance";"housing";"loan";"contact ...

在 windows 上的 Git Bash 中設置 Spark-shell

[英]Setting up Spark-shell in Git Bash on windows

我的系統上的任何其他軟件都沒有遇到過這個問題。 能夠在 window 終端/命令提示符和 Git-Bash 中安裝和運行所有內容最近,我開始學習 Spark。 安裝 Spark 設置所有 JAVA_HOME、SCALA_HOME、hadoop winutils 文件。 Spark-shell 和 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM