![](/img/trans.png)
[英]How to change spark session in spark shell?
我一直在嘗試使用相同的火花上下文進行多個火花會話。 啟動 spark-shell 后,我可以使用以下命令創建一個新的 spark session。val spark2 = spark.newSession(); spark2: org.apache.spark.sql.SparkSession = ...
[英]How to change spark session in spark shell?
我一直在嘗試使用相同的火花上下文進行多個火花會話。 啟動 spark-shell 后,我可以使用以下命令創建一個新的 spark session。val spark2 = spark.newSession(); spark2: org.apache.spark.sql.SparkSession = ...
[英]spark-sql/spark-submit with delta lake is resulting null pointer exception (at org.apache.spark.storage.BlockManagerMasterEndpoint)
我通過提交以下命令在使用 pyspark 時使用 delta lake 系統規格: 火花 - 3.0.3 scala - 2.12.10 java - 1.8.0 hadoop - 2.7 我在看參考博客https://docs.delta.io/latest/quick-start.htm ...
[英]How to read new table with data in spark-shell SQL?
我是火花 shell 的新手,我正在嘗試添加新表並閱讀它。 我添加了這個文件: 工人.txt: 並運行命令: 但是正如您所見,表只有空值,這是為什么呢? 文件workers.txt 位於相同的工作目錄中。 ...
[英]Why spark-shell throws NoSuchMethodException while calling newInstance via reflection
如果我在 REPL 中定義 class 然后通過反射調用 newInstance,則 spark-shell 會拋出NoSuchMethodException 。 但是相同的代碼在本機 scala REPL 中工作正常: spark-shell REPL 和原生 scala REPL 有什么區別 ...
[英]spark-shell not working on installing apache spark. Error: system cannot find the path specified
我安裝了 Apache Spark,還安裝了 java 和 python。 按照本文設置環境變量: https://phoenixnap.com/kb/install-spark-on-windows-10 我還安裝了 winutils.exe。 最初我收到如下錯誤: 對於 SPARK_HOME 環 ...
[英]Is there a way to rerun a pasted block of code in spark shell?
我定期將代碼塊復制到 spark-shell 並使用 :paste ctrl-d 有時它會出錯,因為首先需要另一行代碼,例如導入。 一旦我添加了任何其他要求,我想重新運行整個粘貼的塊。 是否有這樣做的捷徑,而不是重新復制,重新粘貼? 類似於反向搜索但針對整個塊的東西。 ...
[英]Spark-Shell Scala Dataset Display only a few columns in query
我試圖只顯示 Scala 中的幾列,例如姓名、地址和 zip 到目前為止我有這個...... 但是不能只使用過濾器顯示 3 列 ...
[英]Load Text Files and store it in Dataframe using Pyspark
我正在將 pig 腳本遷移到 pyspark,我是 Pyspark 的新手,所以我在數據加載時遇到了困難。 我的豬腳本看起來像: Bag1 = LOAD '/refined/em/em_results/202112/' 使用 PigStorage('\u1') AS (PAYER_SHORT: ...
[英]Dynamically Pivot/Transpose Rows to Columns in Hive/Spark
我有季度基礎數據,數據隨着季度的增長而不斷動態增長- 當季度數較少時,我每次都手動編輯查詢並嘗試如下查詢來轉置它 - 但我的查詢是如何以動態方式和更穩健的方式激活它以將行轉置為列並牢記不斷增長的四分之一,並且隨着四分之一的增長還具有適當的四分之一列名稱。 總之,我正在尋找如何使用更動態的查詢來執行此 ...
[英]Same Spark Dataframe created in 2 different ways gets different execution times in same query
我以兩種方式創建了相同的 Spark Dataframe,以便在其上運行 Spark SQL。 1.我使用以下命令將 a.csv 文件中的數據直接讀取到 Spark shell 中的 Dataframe 中: 2.我在 MongoDB 中從同一個文件中創建了一個集合。csv 文件,然后使用 Sp ...
[英]Spark SQL and MongoDB query execution times on the same data don't produce expected results
這是一個普遍的問題,但我希望有人可以回答。 我正在比較 MongoDB 和 Spark SQL 之間的查詢執行時間。 具體來說,我從 a.csv 文件中創建了一個包含 100 萬個條目的 MongoDB 集合,並使用 Compass 中的 mongosh 對其進行了一些查詢。 然后使用 Spark ...
[英]Spark Shell: SQL Query doesn't return any results when data is integer/double
我正在使用 MongoDB Spark 連接器從 MongoDB 導入數據,然后執行一些 SQL 查詢。 我將在進入實際問題之前描述整個過程,以防我做錯了什么,因為這是我第一次使用這些工具。 我用特定的集合初始化 spark-shell,包括連接器 package: 我啟用連接器: 我制作了我想要的 ...
[英]Spark-shell does not import specified jar file
一般來說,我是所有這些東西的完整初學者,所以如果我錯過了一些完全明顯的步驟,請原諒。 我安裝了 spark 3.1.2 和 cassandra 3.11.11,我試圖通過本指南將它們連接起來,我發現我在哪里做了一個胖 jar 來執行。 在我發布的鏈接中,當他們使用 jar 文件執行 spark-sh ...
[英]How to load data, with array type column, from CSV to spark dataframes
我有 CSV 文件,如圖所示: 加載數據時,默認情況下所有列都作為字符串加載。 所以我將自定義模式定義為String 、 Integer 、 Array 、 Integer數據類型: 當我使用自定義模式加載數據時,它會拋出錯誤運行命令后的終端截圖 如何通過將列制作為數組來加載數據以觸發數據幀? ...
[英]Is there a version compatibility issue between Spark/Hadoop/Scala/Java/Python?
我在通過 cmd 運行 spark-shell 命令時遇到錯誤,但不幸的是到目前為止沒有任何運氣。 我安裝了 Python/Java/Spark/Hadoop(winutils.exe)/Scala,版本如下: 蟒蛇:3.7.3 Java:1.8.0_311 火花:3.2.0 ...
[英]spark-shell exception org.apache.spark.SparkException: Exception thrown in awaitResult
使用 yarn master 啟動 spark-shell 時遇到以下錯誤。 Shell 正在與 spark local master 合作。 下面是spark-defaults.conf 火花版本:- spark-2.4.5-bin-hadoop2.7 hadoop 版本:- hadoop-2 ...
[英]Using s3a on linux machine fail for >100 columns parquet
我正在使用 s3a 從數據庫讀取 dataframe 並寫入.parquet(s3a://bucketname//folder)。 它適用於 <100 列 dataframe 但 crash.exits spark-shell 用於 >~100 列。 如果這是列限制/版本問題/內存問題, ...
[英]How to format CSV data by removing quotes and double-quotes around fields
我正在使用一個數據集,顯然它的每一行都有“雙引號”。 我看不到它,因為當我使用瀏覽器時,它默認以 Excel 打開。 數據集如下所示(原始): "age;"job";"marital";"education";"default";"balance";"housing";"loan";"contact ...
[英]object SparkHadoopUtil in package deploy cannot be accessed in package org.apache.spark.deploy
為什么 SparkHadoopUtil 在此處無法訪問,而在較低版本的 spark 中即使已導入也可以訪問? ...
[英]Setting up Spark-shell in Git Bash on windows
我的系統上的任何其他軟件都沒有遇到過這個問題。 能夠在 window 終端/命令提示符和 Git-Bash 中安裝和運行所有內容最近,我開始學習 Spark。 安裝 Spark 設置所有 JAVA_HOME、SCALA_HOME、hadoop winutils 文件。 Spark-shell 和 ...