使用Apache Spark中的Scala - MLLib转换LabeledPoint中的Vector的RDD

Question

我正在使用Apache-Spark和Scala的MLlib。 我需要转换一组Vector

import org.apache.spark.mllib.linalg.{Vector, Vectors}    
import org.apache.spark.mllib.regression.LabeledPoint

在LabeledPoint中，以应用MLLib的算法
每个向量由Double值0.0（假）或1.0（真）组成。 所有向量都保存在RDD中，因此最终的RDD属于该类型

    val data_tmp: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]

因此，在RDD中有向量创建

 def createArray(values: List[String]) : Vector =
    {                
        var arr : Array[Double] = new Array[Double](tags_table.size)
        tags_table.foreach(x => arr(x._2) =  if (values.contains(x._1)) 1.0 else 0.0 )
        val dv: Vector = Vectors.dense(arr)
        return dv

        }
    /*each element of result is a List[String]*/
    val data_tmp=result.map(x=> createArray(x._2)) 
    val data: RowMatrix = new RowMatrix(data_tmp)

我如何从这个RDD（data_tmp）或RowMatrix（数据）创建LabeledPoint集来使用MLLib算法？ 例如，我需要在这里应用SVMs线性alghoritms

Answer 1

我找到了解决方案：

    def createArray(values: List[String]) : Vector =
    {                
          var arr : Array[Double] = new Array[Double](tags_table.size)
          tags_table.foreach(x => arr(x._2) =  if (values.contains(x._1)) 1.0 else 0.0 )
          val dv: Vector = Vectors.dense(arr)
          return dv

    }
    val data_tmp=result.map(x=> createArray(x._2))       
    val parsedData = data_tmp.map { line => LabeledPoint(1.0,line) }

使用Apache Spark中的Scala - MLLib转换LabeledPoint中的Vector的RDD

问题描述

1 个解决方案

解决方案1
1 2014-12-05 19:07:52

使用Apache Spark中的Scala - MLLib转换LabeledPoint中的Vector的RDD

问题描述

1 个解决方案

解决方案1 1 2014-12-05 19:07:52

解决方案1
1 2014-12-05 19:07:52