將 K-means 集群信息 Apache Spark 提取為 JSON

Question

我將在 Spark 上實現k-means 。 但我需要存儲在 JSON 中的集群信息。 怎么做到呢？

注意：Python 或 Scala 也可以。

預先感謝！

Answer 1

KMeansModel.clusterCenters只是一個本地數據結構（Scala/Java 中的Array[Vector] ，Python 中的 NumPy 數組列表）。 這意味着您可以使用標准的 JSON 處理庫。 以 Python 為例：

import json
json.dumps({"centers": [list(x) for x in clusters.clusterCenters]})

如果 JSONL 可以接受，您還可以並行化中心並使用DataFrameWriter.write.json 。

val clusters: org.apache.spark.mllib.clustering.KMeansModel = ???
sc.parallelize(clusters.clusterCenters.zipWithIndex, 1)
  .toDF("center", "id")
  .write.json("centers.jsonl")

將 K-means 集群信息 Apache Spark 提取為 JSON

問題描述

1 個解決方案

解決方案1
1 已采納 2016-01-13 20:08:04

將 K-means 集群信息 Apache Spark 提取為 JSON

問題描述

1 個解決方案

解決方案1 1 已采納 2016-01-13 20:08:04

解決方案1
1 已采納 2016-01-13 20:08:04