从pyspark.ml.pipeline中的管道对象检索转换后的数据集

Question

我是Spark ML的新手。 我试图利用Spark ML管道来链接数据转换（将其视为ETL流程）。 换句话说，我想输入一个DataFrame，进行一系列转换（每次向该数据帧添加一列）并输出转换后的DataFrame。

我一直在研究Python中管道的文档和代码，但没有得到如何从管道中获取转换后的数据集的方法。 请参见以下示例（从文档中复制并修改）：

from pyspark.ml import Pipeline
from pyspark.ml.feature import HashingTF, Tokenizer

# Prepare training documents from a list of (id, text, label) tuples.
training = spark.createDataFrame([
   (0, "a b c d e spark", 1.0),
   (1, "b d", 0.0),
   (2, "spark f g h", 1.0),
   (3, "hadoop mapreduce", 0.0)
    ], ["id", "text", "label"])

 # Configure an ML pipeline, which consists of two stages: tokenizer, 
 hashingTF.
 tokenizer = Tokenizer(inputCol="text", outputCol="words")
 hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(), 
 outputCol="features")
 pipeline = Pipeline(stages=[tokenizer, hashingTF])

 training.show()
 pipeline.fit(training)

如何从“管道”对象中获取转换后的数据集（即在执行分词器和哈希处理后的数据集）？

Answer 1

你不能。 而是保留模型

model = pipeline.fit(training)

并使用它来transform数据：

training_transformed = model.transform(training)

从pyspark.ml.pipeline中的管道对象检索转换后的数据集

问题描述

1 个解决方案

解决方案1
1

从pyspark.ml.pipeline中的管道对象检索转换后的数据集

问题描述

1 个解决方案

解决方案1 1

解决方案1
1