標簽[apache-spark-1.4] - 堆棧內存溢出

[英]pyspark 1.4 how to get list in aggregated function

我想在pyspark 1.4中的聚合函數中獲取列值的列表。 collect_list不可用。有人建議如何做嗎？原始列：我想要以下輸出， groupby (ID, date, hour) 但是我的pyspark在1.4.0中， collect_list不可用。我 ...

工作節點和主節點中的Python版本有所不同

[英]Python versions in worker node and master node vary

在CentOS 6.7上運行spark 1.4.1。通過anaconda同時安裝了python 2.7和python 3.5.1。確保將PYSPARK_PYTHON env var設置為python3.5，但是當我打開pyspark shell並執行簡單的rdd轉換時，它會出錯，並帶 ...

使用Spark數據幀猜測不一致的JSON模式

[英]Inconsistent JSON schema guess with Spark dataframes

嘗試使用Spark 1.4.1數據幀讀取JSON文件並在其中導航。似乎猜測的架構不正確。 JSON文件是： Spark代碼是：結果是：很明顯，TUPLE_CRA是一個數組。我無法理解為什么沒有猜到。在我看來，推斷架構應該是：有人有解釋嗎？ ...

Spark：DecoderException：java.lang.OutOfMemoryError

[英]Spark: DecoderException: java.lang.OutOfMemoryError

我在具有3個工作節點的群集上運行Spark流應用程序。由於以下異常，作業有時會失敗：我正在客戶端模式下提交作業，沒有任何特殊參數。主人和工人都有15 g的內存。 Spark版本為1.4.0。通過調整配置可以解決此問題嗎？ ...

Spark Worker節點已刪除但沒有消失

[英]Spark worker node removed but not gone

我正在使用帶有主機和單個工作人員的Spark獨立服務器進行測試。最初，我使用了一個工作箱，但現在我決定使用其他工作箱。為此，我停止了正在運行的主服務器，更改了conf / slave文件中的IP，然后再次運行它。但是，老工人仍在加載。當我看到8080的主人。現在，我將放置在c ...

無法啟動spark-shell

[英]Cannot start spark-shell

我正在使用Spark 1.4.1。我可以毫無問題地使用spark-submit。但是當我跑~/spark/bin/spark-shell 我收到了以下錯誤，我已經配置了SPARK_HOME和JAVA_HOME 。但是，Spark 1.2沒關系 ...

Spark + Kafka集成 - 將Kafka分區映射到RDD分區

[英]Spark + Kafka integration - mapping of Kafka partitions to RDD partitions

我有幾個與Spark Streaming相關的基本問題 [如果這些問題已在其他帖子中得到解答，請告訴我 - 我找不到任何問題]：（i）在Spark Streaming中，默認情況下RDD中的分區數是否等於工作者數？（ii）在Spark-Kafka集成的直接方法中，創建的R ...

從數據框列中選擇值

[英]Select values from a dataframe column

我想計算同一列中兩個值之間的差。現在，我只想要最后一個值和第一個值之間的差，但是使用last（column）返回空結果。是否有一個原因last（）將不會返回值？有沒有一種方法可以將我想要的值的位置作為變量傳遞；例如：第10和第1，還是第7和第6？ Current code使 ...

從EMR Spark到S3的saveAsParquetFile緩慢或不完整

[英]Slow or incomplete saveAsParquetFile from EMR Spark to S3

我有一段代碼創建一個DataFrame並將其持久保存到S3。下面創建一個DataFrame的1000行和100列，通過填充math.Random 。我在具有4個r3.8xlarge工作程序節點的群集上運行此程序，並配置了大量內存。我嘗試了最大數量的執行程序，每個節點一個執行程序。 ...

啟用動態分配后，為什么YARN無法獲取任何執行程序？

[英]Why can't YARN acquire any executor when dynamic allocation is enabled?

在使用YARN時，如果不啟用動態分配功能，作業將順利進行。我正在使用Spark 1.4.0。這就是我想要做的：這是我在日志中得到的：這是集群UI的屏幕截圖：誰能為我提供解決方案？甚至線索也將不勝感激。 ...

Spark Scala 如何執行

[英]Spark Scala how to execute

我編寫了以下代碼，它返回“找不到類”異常。我不確定需要做什么才能將 csv 文件中的數據加載到 SparkSQL 中。 ...

DataFrame join 優化 - Broadcast Hash Join

[英]DataFrame join optimization - Broadcast Hash Join

我正在嘗試有效地連接兩個 DataFrame，其中一個較大，第二個較小。有沒有辦法避免所有這些洗牌？我無法設置autoBroadCastJoinThreshold ，因為它只支持整數 - 我試圖廣播的表比整數字節略大。有沒有辦法強制廣播忽略這個變量？ ...

在Apache Spark SQL中，如何從HiveContext關閉Metastore連接

[英]In Apache Spark SQL, How to close metastore connection from HiveContext

我的項目有針對不同HiveContext配置的單元測試（有時它們在一個文件中，因為它們按功能分組。）在升級到Spark 1.4之后，我遇到了很多'java.sql.SQLException：Derby的另一個實例可能已經啟動了數據庫'問題，因為補丁使這些上下文無法共享相同的Metasto ...

從apache spark中的文本文件中查找存儲在rdd中的數據大小

[英]Find size of data stored in rdd from a text file in apache spark

我是Apache Spark（版本1.4.1）的新手。我寫了一個小代碼來讀取文本文件並將其數據存儲在Rdd中。有沒有辦法在rdd中獲取數據大小。這是我的代碼：我希望在過濾轉換（ peopleRdd ）之前和之后（ newRdd ）獲取數據大小。 ...

無法使用saveAsTextFile將RDD [String]保存為文本文件

[英]Unable to save an RDD[String] as a text file using saveAsTextFile

如下所示，當我嘗試將RDD寫入HDFS上的文本文件時，出現錯誤。錯誤：原因：java.lang.RuntimeException：java.lang.ClassNotFoundException：類org.apache.hadoop.mapred.DirectFileOut ...

Spark 1.4 Mllib LDA topicDistributions（）返回錯誤數量的文檔

[英]Spark 1.4 Mllib LDA topicDistributions() returning wrong number of documents

我有一個LDA模型，其語料庫大小為9,681個單詞和60個簇，其語料庫大小為12,054個文檔。我試圖通過調用.topicDistributions（）或.javaTopicDistributions（）來獲取文檔的主題分布。這兩種方法都返回文檔上主題分布的第rdd個。根據我的理解， ...

Spark SQL +流式傳輸問題

[英]Spark SQL + Streaming issues

我們正在嘗試使用Spark Streaming和Spark SQL來實現一個用例，該用例允許我們對某些數據運行用戶定義的規則（有關如何捕獲和使用數據，請參見下文）。想法是使用SQL指定規則，然后將結果作為警報返回給用戶。基於每個傳入事件批處理執行查詢似乎非常緩慢。如果有人可以提出更好 ...

Databricks-如何使用更新的Maven工件創建庫

[英]Databricks - How to create a Library with updated maven artifacts

我們最初使用Maven構件在數據塊中創建了一個庫。我們看到所有的罐子都在庫中，請注意，這個Maven工件是我們的。我們發現該工件幾乎沒有問題。修復它並在Maven中央存儲庫中更新。然后，我們使用maven存儲庫中的工件在數據塊中創建了一個庫。在此庫中，我們看不到更新的 ...

Spark分組和自定義聚合

[英]Spark grouping and custom aggregation

我有以下數據我想得到如下的輸出我在第1列，第2列和第3列進行分組，對於第4列，請遵循以下公式，該組內的第4列=（mt1 + mt2）/ mt4 我正在嘗試使用Spark DF進行相同的操作，假設數據在數據幀a中，列名稱為n，d，un，mt，r。 sqlContext ...

調用updateStateByKey時編譯錯誤

[英]Compile error while calling updateStateByKey

編譯錯誤：在一個簡單的單詞計數示例中，將單詞映射為1 然后在wordCounts上應用updateStateByKey updateFunction的定義如下： updateStateByKey具有以下建議的可用簽名： ...