標簽[sparkcore] - 堆棧內存溢出

在 Python 中使用 Spark Core 組合來自 JSON 和 CSV 文件的數據

[英]Combining data from JSON and CSV files using Spark Core in Python

嘗試編寫一個 Python 腳本，該腳本從 Google Drive 文件中獲取一個 JSON 文件和多個 CSV 文件，並僅使用 Spark Core 分析和操作其數據。此代碼的 function 是用 JSON 和 CSV 文件中的數據創建元組。這兩個文件共享一個共同的信息項，這是每個文件（ ...

檢查spark格式是否存在

[英]check whether is spark format exists or not

語境 Spark reader 有 function format ，用於指定數據源類型，例如JSON ， CSV或第三方com.databricks.spark.redshift 幫助如何查看是否存在第三方格式，我舉個例子在本地 spark 中，連接到 redshift 兩個可用的開源庫 1. c ...

如何使用 log4j2 版本覆蓋 log4j 以解決 apache-core_2.12 版本的“SocketServer class 容易反序列化”

[英]How to Override log4j with log4j2 version to resolve "SocketServer class vulnerable to deserialization" for apache-core_2.12 version

如何使用 log4j-core 2.16.0 版本覆蓋 log4j 版本 1.2.17 以解決 spark-core_2.12 二進制文件的“SocketServer class 易受反序列化”問題。我試圖從 spark-core_2.12 中排除 log4j - 1.2.17，但構建失敗並出現 ...

Spark 組件和 Spark 生態系統之間有聯系嗎？

[英]Is there a link between Spark Components and the Spark Ecosystem?

我閱讀了集群模式概述（鏈接： https://spark.apache.org/docs/latest/cluster-overview.html ）和我想知道如何將組件映射到驅動程序執行器上Spark 生態系統的組件，例如 Spark 核心、Spark SQL、Spark Streaming、S ...

Spark Driver 沒有分配任何工作人員

[英]Spark Driver does not have any worker allotted

我正在學習 spark 並嘗試執行簡單的 wordcount 應用程序。我在用具有 1 個主節點和 2 個工作節點的 spark 集群作為獨立集群 spark 配置運行主啟動腳本是${SPARK_HOME}/sbin/start-master.sh 從啟動腳本是${SPARK_HOME}/sb ...

如何使用 spark rdd 獲得以下列表？

[英]how to get this below list using spark rdd?

列表(1,2,3,4..100)==> 列表((1,2),(2,3),(3,4)...(100,101))==>列表(3,5 ,7,....201) scala> x.map(x=>x,x+1).map(x=>x._1+x._2 ) :26: 錯誤: 方法 map ...

從以下代碼如何轉換 JavaRDD<integer> 到 DataFrame 或數據集</integer>

[英]From the following code how to convert a JavaRDD<Integer> to DataFrame or DataSet

從上面的代碼中，我無法將 JavaRdd (mappartRdd) 轉換為 Java Spark 中的 DataFrame。我正在使用以下將 JavaRdd 轉換為 DataFrame/DataSet。我為 createDataFrame 嘗試了多個選項和不同的重載函數。我面臨將其轉換為 D ...

如何配置不超過可用核心的分區數？

[英]How to configure the number of partition not exceeds available cores?

我正在尋找一種方法來根據可用核心的大小在我的應用程序中對我的所有 dataframe 進行分區。如果我的可用核心（執行程序數 * 每個執行程序的核心數）為 20，那么我想將所有 dataframe 重新分區為20.. The only way I can see to repartition m ...

Spark不通過spark-submit查找客戶端程序

[英]Spark not locating client program via spark-submit

我正在嘗試將spark作業部署到spark集群中，並且面臨着我相信的類加載問題。錯誤詳情如下：目前，我必須將應用程序jar復制到spark jars文件夾，作為部署腳本的一部分來解決此問題。但是我相信spark-submit驅動程序應該智能地完成這個事情，因為每次我想要 ...

在第一批處理后關閉Spark Streaming上下文（嘗試檢索kafka偏移量）

[英]Closing Spark Streaming Context after first batch (trying to retrieve kafka offsets)

我正在嘗試為我的Spark Batch作業檢索Kafka偏移量。檢索偏移量后，我想關閉流上下文。我嘗試將streamlistener添加到流上下文中，並實現onBatchCompleted方法以在作業完成后關閉流，但是我收到異常“無法在偵聽器總線線程內停止StreamingCon ...

reduceByKey可以用於多個值嗎？

[英]Can reduceByKey be used for multiple values?

我剛剛開始學習spark和scala，並測試了RDD的一些轉換和操作。我發現reduceByKey的用法如下：其中，它采用兩個相同值的元組，並使用加法運算將它們組合在一起。現在我的問題是我們是否不能一次累加兩個以上的值，或者一次只能將所有具有相同鍵的值相加？像這樣： ...

Apache Spark 地圖功能 org.apache.spark.SparkException：任務不可序列化

[英]Apache Spark map function org.apache.spark.SparkException: Task not serializable

我正在學習 Apache Spark，我正在使用 Java 8 和 Spark Core 2.3.2。我發現當我在 RDD 上使用 map 函數時，它僅在我使用 Lambda 表達式時才有效。所以這有效：但這不會並拋出 org.apache.spark.SparkException: ...

從Spark配置文件讀取屬性

[英]Reading properties from spark config file

我正在嘗試執行以下代碼但是我收到以下錯誤初始化SparkContext錯誤。 org.apache.spark.SparkException：必須在配置中設置主URL 我還在IntelliJ中將環境變量設置為spark.master = local。誰能幫我弄清楚我在 ...

Spark配對rdd上的地圖變換

[英]map transformation on Spark paired rdd

我在以下配對的RDD上應用了地圖轉換：有兩個不同的簽名。情況1：結果如下：情況2：給出以下錯誤：錯誤：簡單表達式的非法啟動我是否可以知道案例2失敗的原因，只是花括號是兩個案例之間的區別。提前致謝。 ...

Scala / RDD：如何將元組的值與同一元組中的值列表進行比較

[英]Scala/RDD : How to compare a value of tuple with a list of values in the same tuple

我有如下數據我想要像這樣的輸出：可以通過使用scala或spark core來幫助身體嗎？ ...

spark.executor.extraClassPath選項以編程方式通過SparkConf進行設置

[英]spark.executor.extraClassPath option setting programmatically through SparkConf

我的項目罐與EMR上的jar沖突，所以為了解決這個問題我已經通過bootstrap腳本將所有高級jar復制到節點的自定義位置。我已經驗證了罐子被復制到所有執行器節點上。它與spark-submit工作正常，我的code引用了所有節點的自定義文件夾中的新jar。同樣的事情我想 ...

如何使用自定義屬性初始化SparkContext？

[英]How to initialise SparkContext with custom properties?

我正在使用spark-shell學習Spark。從終端運行spark-shell時，默認情況下已經提供了sparkContext。我想向火花上下文添加一些手動設置（例如setMaster（“ local”）和setAppName（“ KVApp”））。嘗試從spark殼執行以 ...

如何計算當月的星期日？

[英]How can I count the Sundays in the current month?

不久前，我基於arduino制作了一個LED掛鍾和日歷，現在想對其進行修改以添加一個變量，以自動調整DST的偏移量。我已經每天輪詢兩次Internet時間服務器以確保准確性，但是時間服務器通常不提供DST信息。更改發生在3月的第2個星期日和11月的第1個星期日。（ https://w ...

火花全文文件會選擇部分創建的文件嗎？

[英]Will spark wholetextfiles pick partially created file?

我正在使用Spark WholeTextFiles API從源文件夾讀取文件並將其加載到配置單元表。文件從遠程服務器到達源文件夾。文件非常大，例如1GB-3GB。文件的SCP需要相當長的時間。如果我啟動了spark作業，並且文件正在SCPd到源文件夾，並且進程已完成一半， ...

Spark數據集上的GroupbyKey

[英]GroupbyKey on spark dataset

groupByKey是否會導致整個網絡中所有值的混亂，即使它們已經位於分區內，當我們按照sparkSQL中的操作進行分組時，它是否使用groupbykey還是使用aggregateByKey來提高性能？ ...