使用Spark從數據幀/ RDD中按鍵獲取行數

Question

我有一個逗號分隔的文件。 假設我有帳戶文件，並且我有以下數據

AcctId, AcctName, City, State, Deductible
1,ABC,Fremont,CA,4000
1,DEF,UnionCity,CA,10000
2,FFF, Hayward,CA,2323

I want to have a dataset or a list which has AcctId,Count as 
1,2
2,1

我有以下代碼

val df: DataFrame = sqlContext.read
          .format("com.databricks.spark.csv")
          .option("header", true) // Use first line of all files as header
          .option("delimiter", ",")
          .option("inferSchema", "true") // Automatically infer data types
          .load(file)

        val accGrpCountsDs = df.groupByKey(acctId => acctId).count()

我正在為8個文件循環執行此操作，並且由於所有8個文件中都存在acctid，因此我正在更新並發映射中的計數。 地圖中的計數是累積總和。 這8個文件預計將具有數百萬行。

我有這些問題

什么是實現這一目標的最佳方法。 GroupByKey是Better還是ReduceByKey。 我應該使用RDD還是數據幀。 ？

你能分享例子嗎

謝謝

Answer 1

只需使用df.groupBy("AcctId").count 。 這樣，您可以避免鎢絲反序列化。 同樣，您將獲得一個數據幀作為輸出。

順便說一句，考慮一一讀取整個目錄，而不是單個csv文件。

使用Spark從數據幀/ RDD中按鍵獲取行數

問題描述

1 個解決方案

解決方案1
1 已采納 2019-06-19 18:34:20

使用Spark從數據幀/ RDD中按鍵獲取行數

問題描述

1 個解決方案

解決方案1 1 已采納 2019-06-19 18:34:20

解決方案1
1 已采納 2019-06-19 18:34:20