cost 126 ms
pyspark 1.4如何在聚合函數中獲取列表

[英]pyspark 1.4 how to get list in aggregated function

我想在pyspark 1.4中的聚合函數中獲取列值的列表。 collect_list不可用。 有人建議如何做嗎? 原始列: 我想要以下輸出, groupby (ID, date, hour) 但是我的pyspark在1.4.0中, collect_list不可用。 我 ...

使用Spark數據幀猜測不一致的JSON模式

[英]Inconsistent JSON schema guess with Spark dataframes

嘗試使用Spark 1.4.1數據幀讀取JSON文件並在其中導航。 似乎猜測的架構不正確。 JSON文件是: Spark代碼是: 結果是: 很明顯,TUPLE_CRA是一個數組。 我無法理解為什么沒有猜到。 在我看來,推斷架構應該是: 有人有解釋嗎? ...

Spark:DecoderException:java.lang.OutOfMemoryError

[英]Spark: DecoderException: java.lang.OutOfMemoryError

我在具有3個工作節點的群集上運行Spark流應用程序。 由於以下異常,作業有時會失敗: 我正在客戶端模式下提交作業,沒有任何特殊參數。 主人和工人都有15 g的內存。 Spark版本為1.4.0。 通過調整配置可以解決此問題嗎? ...

Spark Worker節點已刪除但沒有消失

[英]Spark worker node removed but not gone

我正在使用帶有主機和單個工作人員的Spark獨立服務器進行測試。 最初,我使用了一個工作箱,但現在我決定使用其他工作箱。 為此,我停止了正在運行的主服務器,更改了conf / slave文件中的IP,然后再次運行它。 但是,老工人仍在加載。 當我看到8080的主人。 現在,我將放置在c ...

無法啟動spark-shell

[英]Cannot start spark-shell

我正在使用Spark 1.4.1。 我可以毫無問題地使用spark-submit。 但是當我跑~/spark/bin/spark-shell 我收到了以下錯誤,我已經配置了SPARK_HOME和JAVA_HOME 。 但是,Spark 1.2沒關系 ...

Spark + Kafka集成 - 將Kafka分區映射到RDD分區

[英]Spark + Kafka integration - mapping of Kafka partitions to RDD partitions

我有幾個與Spark Streaming相關的基本問題 [如果這些問題已在其他帖子中得到解答,請告訴我 - 我找不到任何問題]: (i)在Spark Streaming中,默認情況下RDD中的分區數是否等於工作者數? (ii)在Spark-Kafka集成的直接方法中 ,創建的R ...

從數據框列中選擇值

[英]Select values from a dataframe column

我想計算同一列中兩個值之間的差。 現在,我只想要最后一個值和第一個值之間的差,但是使用last(column)返回空結果。 是否有一個原因last()將不會返回值? 有沒有一種方法可以將我想要的值的位置作為變量傳遞; 例如:第10和第1,還是第7和第6? Current code使 ...

從EMR Spark到S3的saveAsParquetFile緩慢或不完整

[英]Slow or incomplete saveAsParquetFile from EMR Spark to S3

我有一段代碼創建一個DataFrame並將其持久保存到S3。 下面創建一個DataFrame的1000行和100列,通過填充math.Random 。 我在具有4個r3.8xlarge工作程序節點的群集上運行此程序,並配置了大量內存。 我嘗試了最大數量的執行程序,每個節點一個執行程序。 ...

啟用動態分配后,為什么YARN無法獲取任何執行程序?

[英]Why can't YARN acquire any executor when dynamic allocation is enabled?

在使用YARN時, 如果不啟用動態分配功能,作業將順利進行。 我正在使用Spark 1.4.0。 這就是我想要做的: 這是我在日志中得到的: 這是集群UI的屏幕截圖: 誰能為我提供解決方案? 甚至線索也將不勝感激。 ...

DataFrame join 優化 - Broadcast Hash Join

[英]DataFrame join optimization - Broadcast Hash Join

我正在嘗試有效地連接兩個 DataFrame,其中一個較大,第二個較小。 有沒有辦法避免所有這些洗牌? 我無法設置autoBroadCastJoinThreshold ,因為它只支持整數 - 我試圖廣播的表比整數字節略大。 有沒有辦法強制廣播忽略這個變量? ...

在Apache Spark SQL中,如何從HiveContext關閉Metastore連接

[英]In Apache Spark SQL, How to close metastore connection from HiveContext

我的項目有針對不同HiveContext配置的單元測試(有時它們在一個文件中,因為它們按功能分組。) 在升級到Spark 1.4之后,我遇到了很多'java.sql.SQLException:Derby的另一個實例可能已經啟動了數據庫'問題,因為補丁使這些上下文無法共享相同的Metasto ...

從apache spark中的文本文件中查找存儲在rdd中的數據大小

[英]Find size of data stored in rdd from a text file in apache spark

我是Apache Spark(版本1.4.1)的新手。 我寫了一個小代碼來讀取文本文件並將其數據存儲在Rdd中。 有沒有辦法在rdd中獲取數據大小。 這是我的代碼: 我希望在過濾轉換( peopleRdd )之前和之后( newRdd )獲取數據大小。 ...

Spark 1.4 Mllib LDA topicDistributions()返回錯誤數量的文檔

[英]Spark 1.4 Mllib LDA topicDistributions() returning wrong number of documents

我有一個LDA模型,其語料庫大小為9,681個單詞和60個簇,其語料庫大小為12,054個文檔。 我試圖通過調用.topicDistributions()或.javaTopicDistributions()來獲取文檔的主題分布。 這兩種方法都返回文檔上主題分布的第rdd個。 根據我的理解, ...

Spark SQL +流式傳輸問題

[英]Spark SQL + Streaming issues

我們正在嘗試使用Spark Streaming和Spark SQL來實現一個用例,該用例允許我們對某些數據運行用戶定義的規則(有關如何捕獲和使用數據,請參見下文)。 想法是使用SQL指定規則,然后將結果作為警報返回給用戶。 基於每個傳入事件批處理執行查詢似乎非常緩慢。 如果有人可以提出更好 ...

Databricks-如何使用更新的Maven工件創建庫

[英]Databricks - How to create a Library with updated maven artifacts

我們最初使用Maven構件在數據塊中創建了一個庫。 我們看到所有的罐子都在庫中,請注意,這個Maven工件是我們的。 我們發現該工件幾乎沒有問題。 修復它並在Maven中央存儲庫中更新。 然后,我們使用maven存儲庫中的工件在數據塊中創建了一個庫。 在此庫中,我們看不到更新的 ...

Spark分組和自定義聚合

[英]Spark grouping and custom aggregation

我有以下數據 我想得到如下的輸出 我在第1列,第2列和第3列進行分組,對於第4列,請遵循以下公式, 該組內的第4列=(mt1 + mt2)/ mt4 我正在嘗試使用Spark DF進行相同的操作,假設數據在數據幀a中,列名稱為n,d,un,mt,r。 sqlContext ...

調用updateStateByKey時編譯錯誤

[英]Compile error while calling updateStateByKey

編譯錯誤: 在一個簡單的單詞計數示例中,將單詞映射為1 然后在wordCounts上應用updateStateByKey updateFunction的定義如下: updateStateByKey具有以下建議的可用簽名: ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM