簡體   English   中英

將 K-means 集群信息 Apache Spark 提取為 JSON

[英]Extract K-means cluster information Apache Spark into JSON

我將在 Spark 上實現k-means 但我需要存儲在 JSON 中的集群信息。 怎么做到呢?

注意:Python 或 Scala 也可以。

預先感謝!

KMeansModel.clusterCenters只是一個本地數據結構(Scala/Java 中的Array[Vector] ,Python 中的 NumPy 數組列表)。 這意味着您可以使用標准的 JSON 處理庫。 以 Python 為例:

import json
json.dumps({"centers": [list(x) for x in clusters.clusterCenters]})

如果 JSONL 可以接受,您還可以並行化中心並使用DataFrameWriter.write.json

val clusters: org.apache.spark.mllib.clustering.KMeansModel = ???
sc.parallelize(clusters.clusterCenters.zipWithIndex, 1)
  .toDF("center", "id")
  .write.json("centers.jsonl")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM