PySpark ML：获取KMeans集群统计信息

Question

我建立了一个KMeansModel。 我的结果存储在称为transformed的PySpark DataFrame中。

（a）我如何解释transformed的内容？

（b）如何通过transformed创建一个或多个Pandas DataFrame，以显示14个群集中每个13个功能部件的摘要统计信息？

from pyspark.ml.clustering import KMeans
# Trains a k-means model.
kmeans = KMeans().setK(14).setSeed(1)
model = kmeans.fit(X_spark_scaled) # Fits a model to the input dataset with optional parameters.

transformed = model.transform(X_spark_scaled).select("features", "prediction") # X_spark_scaled is my PySpark DataFrame consisting of 13 features
transformed.show(5, truncate = False)
+------------------------------------------------------------------------------------------------------------------------------------+----------+
|features                                                                                                                            |prediction|
+------------------------------------------------------------------------------------------------------------------------------------+----------+
|(14,[4,5,7,8,9,13],[1.0,1.0,485014.0,0.25,2.0,1.0])                                                                                 |12        |
|(14,[2,7,8,9,12,13],[1.0,2401233.0,1.0,1.0,1.0,1.0])                                                                                |2         |
|(14,[2,4,5,7,8,9,13],[0.3333333333333333,0.6666666666666666,0.6666666666666666,2429111.0,0.9166666666666666,1.3333333333333333,3.0])|2         |
|(14,[4,5,7,8,9,12,13],[1.0,1.0,2054748.0,0.15384615384615385,11.0,1.0,1.0])                                                         |11        |
|(14,[2,7,8,9,13],[1.0,43921.0,1.0,1.0,1.0])                                                                                         |1         |
+------------------------------------------------------------------------------------------------------------------------------------+----------+
only showing top 5 rows

顺便说一句，我从另一篇SO帖子中发现，可以将功能映射到它们的名称，如下所示。 在一个或多个Pandas数据帧中具有每个群集的每个特征的摘要统计信息（平均值，中位数，std，最小值，最大值）将是很好的。

attr_list = [attr for attr in chain(*transformed.schema['features'].metadata['ml_attr']['attrs'].values())]
attr_list

根据注释中的每个请求，这是由2条数据记录组成的快照（不想提供太多记录-此处为专有信息）

+---------------------+------------------------+-----------------------+----------------------+----------------------+------------------------------+---------------------------------+------------+-------------------+--------------------+------------------------------------+--------------------------+-------------------------------+-----------------+--------------------+--------------------+
|device_type_robot_pct|device_type_smart_tv_pct|device_type_desktop_pct|device_type_tablet_pct|device_type_mobile_pct|device_type_mobile_persist_pct|visitors_seen_with_anonymiser_pct|ip_time_span|          ip_weight|mean_ips_per_visitor|visitors_seen_with_multi_country_pct|international_visitors_pct|visitors_seen_with_multi_ua_pct|count_tuids_on_ip|            features|      scaledFeatures|
+---------------------+------------------------+-----------------------+----------------------+----------------------+------------------------------+---------------------------------+------------+-------------------+--------------------+------------------------------------+--------------------------+-------------------------------+-----------------+--------------------+--------------------+
|                  0.0|                     0.0|                    0.0|                   0.0|                   1.0|                           1.0|                              0.0|    485014.0|               0.25|                 2.0|                                 0.0|                       0.0|                            0.0|              1.0|(14,[4,5,7,8,9,13...|(14,[4,5,7,8,9,13...|
|                  0.0|                     0.0|                    1.0|                   0.0|                   0.0|                           0.0|                              0.0|   2401233.0|                1.0|                 1.0|                                 0.0|                       0.0|                            1.0|              1.0|(14,[2,7,8,9,12,1...|(14,[2,7,8,9,12,1...|

Answer 1

正如Anony-Mousse所评论的那样，（Py）Spark ML确实比 scikit-learn或其他类似软件包有更多的限制，而且这种功能并不简单。 尽管如此，这是一种获取所需内容的方法（集群统计信息）：

spark.version
# u'2.2.0'

from pyspark.ml.clustering import KMeans
from pyspark.ml.linalg import Vectors

# toy data - 5-d features including sparse vectors
df = spark.createDataFrame(
 [(Vectors.sparse(5,[(0, 164.0),(1,520.0)]), 1.0),
  (Vectors.dense([519.0,2723.0,0.0,3.0,4.0]), 1.0),
  (Vectors.sparse(5,[(0, 2868.0), (1, 928.0)]), 1.0),
  (Vectors.sparse(5,[(0, 57.0), (1, 2715.0)]), 0.0),
  (Vectors.dense([1241.0,2104.0,0.0,0.0,2.0]), 1.0)],
 ["features", "target"])

df.show()
# +--------------------+------+ 
# |            features|target| 
# +--------------------+------+ 
# |(5,[0,1],[164.0,5...|   1.0|
# |[519.0,2723.0,0.0...|   1.0| 
# |(5,[0,1],[2868.0,...|   1.0|
# |(5,[0,1],[57.0,27...|   0.0| 
# |[1241.0,2104.0,0....|   1.0|
# +--------------------+------+

kmeans = KMeans(k=3, seed=1)
model = kmeans.fit(df.select('features'))

transformed = model.transform(df).select("features", "prediction")
transformed.show()
# +--------------------+----------+
# |            features|prediction|
# +--------------------+----------+
# |(5,[0,1],[164.0,5...|         1| 
# |[519.0,2723.0,0.0...|         2|
# |(5,[0,1],[2868.0,...|         0|
# |(5,[0,1],[57.0,27...|         2|
# |[1241.0,2104.0,0....|         2|
# +--------------------+----------+

到这里，关于您的第一个问题：

我如何解释transformed的内容？

features列只是原始数据中同一列的复制。

prediction列是各个数据记录所属的群集； 在我的示例中，有5条数据记录和k=3群集，最终在群集＃0中有1条记录，在群集＃1中有1条记录，在群集＃2中有3条记录。

关于第二个问题：

如何通过transformed创建一个或多个Pandas DataFrame，以显示14个群集中每个特征的13个特征的摘要统计信息？

（注意：您似乎有14个功能，而没有13个...）

这是看似简单的任务的一个很好的例子，不幸的是，PySpark无法提供现成的功能-不仅因为所有特征都分组在单个矢量features ，还因为它没有提供现成的功能。 为此，我们必须首先“反汇编” features ，有效地提出VectorAssembler的反转操作。

我目前能想到的唯一方法是暂时还原为RDD并执行map操作[编辑：这不是必需的-参见下面的UPDATE]； 这是我上面的群集2的示例，其中包含密集和稀疏向量：

# keep only cluster #2:
cl_2 = transformed.filter(transformed.prediction==2)
cl_2.show() 
# +--------------------+----------+ 
# |            features|prediction|
# +--------------------+----------+
# |[519.0,2723.0,0.0...|         2|
# |(5,[0,1],[57.0,27...|         2|
# |[1241.0,2104.0,0....|         2| 
# +--------------------+----------+

# set the data dimensionality as a parameter:
dimensionality = 5

cluster_2 = cl_2.drop('prediction').rdd.map(lambda x: [float(x[0][i]) for i in range(dimensionality)]).toDF(schema=['x'+str(i) for i in range(dimensionality)])
cluster_2.show()
# +------+------+---+---+---+ 
# |    x0|    x1| x2| x3| x4|
# +------+------+---+---+---+
# | 519.0|2723.0|0.0|3.0|4.0|
# |  57.0|2715.0|0.0|0.0|0.0| 
# |1241.0|2104.0|0.0|0.0|2.0|
# +------+------+---+---+---+

（如果您的初始数据在Spark数据帧initial_data ，则可以将最后一部分更改为toDF(schema=initial_data.columns) ，以保留原始特征名称。）

从这一点出发，您可以将cluster_2数据框转换为一个大熊猫（如果它适合您的内存），或者使用Spark数据框的describe()函数来获取摘要统计信息：

cluster_2.describe().show()
# result:
+-------+-----------------+-----------------+---+------------------+---+ 
|summary|               x0|               x1| x2|                x3| x4|
+-------+-----------------+-----------------+---+------------------+---+ 
|  count|                3|                3|  3|                 3|  3|
|   mean|605.6666666666666|           2514.0|0.0|               1.0|2.0|
| stddev|596.7389155512932|355.0929455790413|0.0|1.7320508075688772|2.0|
|    min|             57.0|           2104.0|0.0|               0.0|0.0|
|    max|           1241.0|           2723.0|0.0|               3.0|4.0|
+-------+-----------------+-----------------+---+------------------+---+

在您的情况下使用dimensionality=14的上述代码应该可以完成工作...

恼火所有这些（可以说是没用）显著中位数mean和stddev ？ 另外，这是我前段时间汇总的一个小实用函数：

def prettySummary(df):
    """ Neat summary statistics of a Spark dataframe
    Args:
        pyspark.sql.dataframe.DataFrame (df): input dataframe
    Returns:
        pandas.core.frame.DataFrame: a pandas dataframe with the summary statistics of df
    """
    import pandas as pd
    temp = df.describe().toPandas()
    temp.iloc[1:3,1:] = temp.iloc[1:3,1:].convert_objects(convert_numeric=True)
    pd.options.display.float_format = '{:,.2f}'.format
    return temp

stats_df = prettySummary(cluster_2)
stats_df
# result:
    summary     x0       x1   x2   x3   x4
 0  count        3        3    3    3    3 
 1   mean   605.67 2,514.00 0.00 1.00 2.00 
 2 stddev   596.74   355.09 0.00 1.73 2.00 
 3    min     57.0   2104.0  0.0  0.0  0.0 
 4    max   1241.0   2723.0  0.0  3.0  4.0

更新：再次考虑它，并查看示例数据，我想出了一个更直接的解决方案，不需要调用中间RDD（如果可能的话，可以避免使用该操作）...

关键的观察是transformed的完整内容，即没有 select语句； 保持与上述相同的玩具数据集，我们得到：

transformed = model.transform(df)  # no 'select' statements
transformed.show()
# +--------------------+------+----------+
# |            features|target|prediction| 
# +--------------------+------+----------+
# |(5,[0,1],[164.0,5...|   1.0|         1|
# |[519.0,2723.0,0.0...|   1.0|         2|
# |(5,[0,1],[2868.0,...|   1.0|         0|
# |(5,[0,1],[57.0,27...|   0.0|         2|
# |[1241.0,2104.0,0....|   1.0|         2|
# +--------------------+------+----------+

如您所见，要转换的数据帧df中存在其他任何列（在我的情况下仅是target ），只是“传递”了转换过程，最终出现在最终结果中...

希望您能开始理解：如果df包含您最初的14个功能，每个功能都包含在单独的列中，再加上第15列名为features （大致如示例数据中所示，但没有最后一列），则下面的代码：

kmeans = KMeans().setK(14)
model = kmeans.fit(df.select('features'))
transformed = model.transform(df).drop('features')

将为您提供一个包含15列的transformed的Spark数据框，即您的初始14个要素以及带有相应簇号的prediction列。

从这一点出发，您可以按照我上面显示的步骤进行操作，以从transformed特定群集中filter并获取摘要统计信息，但是您将避免（昂贵...）转换为中间临时RDD，从而将所有操作都保留在Spark数据帧的更有效上下文...

PySpark ML：获取KMeans集群统计信息

问题描述

1 个解决方案

解决方案1
10 已采纳 2017-11-07 11:30:12

PySpark ML：获取KMeans集群统计信息

问题描述

1 个解决方案

解决方案1 10 已采纳 2017-11-07 11:30:12

解决方案1
10 已采纳 2017-11-07 11:30:12