Apache Spark MLLib - 使用IDF-TF向量運行KMeans - Java堆空間

Question

我試圖從（大）文本文檔集合（TF-IDF向量）上運行MLLib上的KMeans。 文檔通過Lucene英文分析器發送，稀疏矢量從HashingTF.transform（）函數創建。 無論我使用的並行度（通過合並函數），KMeans.train總是返回下面的OutOfMemory異常。 有關如何解決這個問題的想法？

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at scala.reflect.ManifestFactory$$anon$12.newArray(Manifest.scala:138)
at scala.reflect.ManifestFactory$$anon$12.newArray(Manifest.scala:136)
at breeze.linalg.Vector$class.toArray(Vector.scala:80)
at breeze.linalg.SparseVector.toArray(SparseVector.scala:48)
at breeze.linalg.Vector$class.toDenseVector(Vector.scala:75)
at breeze.linalg.SparseVector.toDenseVector(SparseVector.scala:48)
at breeze.linalg.Vector$class.toDenseVector$mcD$sp(Vector.scala:74)
at breeze.linalg.SparseVector.toDenseVector$mcD$sp(SparseVector.scala:48)
at org.apache.spark.mllib.clustering.BreezeVectorWithNorm.toDense(KMeans.scala:422)
at org.apache.spark.mllib.clustering.KMeans$$anonfun$initKMeansParallel$1.apply(KMeans.scala:285)
at org.apache.spark.mllib.clustering.KMeans$$anonfun$initKMeansParallel$1.apply(KMeans.scala:284)
at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
at org.apache.spark.mllib.clustering.KMeans.initKMeansParallel(KMeans.scala:284)
at org.apache.spark.mllib.clustering.KMeans.runBreeze(KMeans.scala:143)
at org.apache.spark.mllib.clustering.KMeans.run(KMeans.scala:126)
at org.apache.spark.mllib.clustering.KMeans$.train(KMeans.scala:338)
at org.apache.spark.mllib.clustering.KMeans$.train(KMeans.scala:348)

Answer 1

經過一些調查后發現，這個問題與new HashingTF().transform(v)方法有關。 雖然使用散列技巧創建稀疏向量確實很有用（特別是當未知特征的數量時），向量必須保持稀疏。 HashingTF向量的默認大小為2 ^ 20。 給定64位雙精度，理論上每個向量在轉換為密集向量時需要8MB - 無論我們可以應用的維數減少。

遺憾的是，KMeans使用toDense方法（至少對於集群中心），因此導致OutOfMemory錯誤（想象k = 1000）。

  private def initRandom(data: RDD[BreezeVectorWithNorm]) : Array[Array[BreezeVectorWithNorm]] = {
    val sample = data.takeSample(true, runs * k, new XORShiftRandom().nextInt()).toSeq
    Array.tabulate(runs)(r => sample.slice(r * k, (r + 1) * k).map { v =>
      new BreezeVectorWithNorm(v.vector.toDenseVector, v.norm)
    }.toArray)
  }

Apache Spark MLLib - 使用IDF-TF向量運行KMeans - Java堆空間

問題描述

1 個解決方案

解決方案1
3 2014-10-21 19:38:49

Apache Spark MLLib - 使用IDF-TF向量運行KMeans - Java堆空間

問題描述

1 個解決方案

解決方案1 3 2014-10-21 19:38:49

解決方案1
3 2014-10-21 19:38:49