簡體   English   中英

如何在Spark中將RDD <String>轉換為RDD <Vector>?

[英]How to convert a RDD<String> to a RDD<Vector> in Spark?

我有一個文件,每一行都是這樣的

info1,info2
info3,info4
...

掃描完之后,我想運行k-means算法:

  val rawData = sc.textFile(myFile)
  val converted = convertToVector(rawData)
  val kmeans = new KMeans()
  kmeans.setK(10)
  kmeans.setRuns(10)
  kmeans.setEpsilon(1.0e-6)
  val model = kmeans.run(rawData) -> problem: k-means accepts only RDD<Vector>

因為k-means只接受RDD<Vector> ,所以我創建了一個將RDD<String> rawData轉換為RDD<Vector>的函數。 但我不知道如何做到這一點,下面這個功能正在進行中:

def converToVector(rawData: RDD[String]): RDD[Vector] = {

    //TODO...
    val toConvert = rawData.collect().toVector
    val map = rawData.map {
      line => line.split(",").toVector
    }

    map
  }

有關如何實現這一目標的任何建議?

提前致謝。

考慮到輸入文件的每一行都是一個用逗號分隔的字符串表示的假設向量,這是一個非常基本的操作。

您只需映射每個字符串entrie,將其拆分在分隔符上,然后從中創建一個密集的Vector:

val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM