如何在Spark數據集中創建TypedColumn並進行操作？

Question

我正在嘗試使用mapGroups執行聚合，該聚合返回SparseMatrix作為列之一，並對列求和。

我為映射的行創建了一個case class架構，以提供列名。 矩陣列的類型為org.apache.spark.mllib.linalg.Matrix 。 如果我在執行聚合（ select(sum("mycolumn") ）之前未運行toDF ， select(sum("mycolumn")收到一種類型不匹配錯誤（ required: org.apache.spark.sql.TypedColumn[MySchema,?] ）。如果包含toDF我收到另一個類型不匹配錯誤： cannot resolve 'sum(mycolumn)' due to data type mismatch: function sum requires numeric types, not org.apache.spark.mllib.linalg.MatrixUDT 。那么正確的方法是什么？

Answer 1

您似乎在這里遇到至少兩個不同的問題。 假設您具有這樣的Dataset ：

val ds = Seq(
  ("foo",  Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0))), 
  ("foo",  Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0)))
).toDS

選擇TypedColumn ：

使用$進行隱式轉換：
```
 ds.select(col("_1").as[String]) 
```
使用oassql.functions.col ：
```
 ds.select(col("_1").as[String]) 
```

添加矩陣：

MLLib Matrix和MatrixUDT不實現加法。 這意味着您將無法使用+ sum或sum
您可以使用第三方線性代數庫，但Spark SQL / Spark Dataset不支持此功能

如果您真的想與Datsets一起Datsets ，可以嘗試執行以下操作：

ds.groupByKey(_._1).mapGroups(
  (key, values) => {
    val matrices = values.map(_._2.toArray)
    val first = matrices.next
    val sum = matrices.foldLeft(first)(
      (acc, m) => acc.zip(m).map { case (x, y) => x + y }
    )
    (key, sum)
})

並映射回矩陣，但就我個人而言，我只是轉換為RDD並使用breeze 。

如何在Spark數據集中創建TypedColumn並進行操作？

問題描述

1 個解決方案

解決方案1
2 已采納 2016-07-21 23:25:36

如何在Spark數據集中創建TypedColumn並進行操作？

問題描述

1 個解決方案

解決方案1 2 已采納 2016-07-21 23:25:36

解決方案1
2 已采納 2016-07-21 23:25:36