如何使用Apache Spark Scala獲取大型CSV / RDD [Array [double]]中所有列的直方圖？

Question

我正在嘗試使用Spark Scala計算CSV文件中所有列的直方圖。

我發現DoubleRDDFunctions支持直方圖。 所以我編碼如下所示獲取所有列的直方圖。

獲取列數

創建每列的RDD[double]並使用DoubleRDDFunctions計算每個RDD直方圖

 var columnIndexArray = Array.tabulate(rdd.first().length) (_ * 1) val histogramData = columnIndexArray.map(columns => { rdd.map(lines => lines(columns)).histogram(6) })

這是一個好方法嗎？ 誰能提出一些更好的方法來解決這個問題？

提前致謝。

Answer 1

不是更好，但替代方法是將RDD轉換為DataFrame並使用histogram_numeric UDF。

示例數據：

import scala.util.Random
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions.{callUDF, lit, col}
import org.apache.spark.sql.Row
import org.apache.spark.sql.hive.HiveContext

val sqlContext = new HiveContext(sc)

Random.setSeed(1)

val ncol = 5

val rdd = sc.parallelize((1 to 1000).map(
  _ => Row.fromSeq(Array.fill(ncol)(Random.nextDouble))
))

val schema = StructType(
  (1 to ncol).map(i => StructField(s"x$i", DoubleType, false)))

val df = sqlContext.createDataFrame(rdd, schema)
df.registerTempTable("df")

查詢：

val nBuckets = 3
val columns = df.columns.map(
  c => callUDF("histogram_numeric", col(c), lit(nBuckets)).alias(c))
val histograms = df.select(columns: _*)

histograms.printSchema

// root
//  |-- x1: array (nullable = true)
//  |    |-- element: struct (containsNull = true)
//  |    |    |-- x: double (nullable = true)
//  |    |    |-- y: double (nullable = true)
//  |-- x2: array (nullable = true)
//  |    |-- element: struct (containsNull = true)
//  |    |    |-- x: double (nullable = true)
//  |    |    |-- y: double (nullable = true)
//  |-- x3: array (nullable = true)
//  |    |-- element: struct (containsNull = true)
//  |    |    |-- x: double (nullable = true)
//  |    |    |-- y: double (nullable = true)
//  |-- x4: array (nullable = true)
//  |    |-- element: struct (containsNull = true)
//  |    |    |-- x: double (nullable = true)
//  |    |    |-- y: double (nullable = true)
//  |-- x5: array (nullable = true)
//  |    |-- element: struct (containsNull = true)
//  |    |    |-- x: double (nullable = true)
//  |    |    |-- y: double (nullable = true)

histograms.select($"x1").collect()

// Array([WrappedArray([0.16874313309969038,334.0],
//   [0.513382068667877,345.0], [0.8421388886903808,321.0])])

Answer 2

（scala api）轉換， countByValue應該做你想要的

所以例如為RDD中的第一列生成直方圖數據：

val histCol1 = RDD.map(record => record.col_1).countByValue()

在上面的表達式中， record只引用RDD中的數據行，它是具有字段col_1的案例類的實例

所以histCol1將返回一個哈希表（Scala Map），其中鍵是第1列（col_1）中的唯一值，值顯然是每個唯一值的頻率

如何使用Apache Spark Scala獲取大型CSV / RDD [Array [double]]中所有列的直方圖？

問題描述

2 個解決方案

解決方案1
5 已采納 2015-10-21 07:46:12

解決方案2
1 2015-10-21 05:24:44

如何使用Apache Spark Scala獲取大型CSV / RDD [Array [double]]中所有列的直方圖？

問題描述

2 個解決方案

解決方案1 5 已采納 2015-10-21 07:46:12

解決方案2 1 2015-10-21 05:24:44

解決方案1
5 已采納 2015-10-21 07:46:12

解決方案2
1 2015-10-21 05:24:44