將 Pipeline RDD 轉換為 Spark dataframe

Question

從此開始：

items.take(2)
[['home', 'alone', 'apparently'], ['st','louis','plant','close','die','old','age','workers','making','cars','since','onset','mass','automotive','production','1920s']]

type(items)
pyspark.rdd.PipelinedRDD

我想將其轉換為 Spark dataframe，每個單詞列表有一列和一行。

Answer 1

您可以使用toDF創建一個 dataframe ，但請記住先將每個列表包裝在一個列表中，以便 Spark 可以理解每行只有一列。

df = items.map(lambda x: [x]).toDF(['words'])

df.show(truncate=False)
+------------------------------------------------------------------------------------------------------------------+
|words                                                                                                             |
+------------------------------------------------------------------------------------------------------------------+
|[home, alone, apparently]                                                                                         |
|[st, louis, plant, close, die, old, age, workers, making, cars, since, onset, mass, automotive, production, 1920s]|
+------------------------------------------------------------------------------------------------------------------+

df.printSchema()
root
 |-- words: array (nullable = true)
 |    |-- element: string (containsNull = true)

將 Pipeline RDD 轉換為 Spark dataframe

問題描述

1 個解決方案

解決方案1
2 已采納 2021-03-06 07:38:17

將 Pipeline RDD 轉換為 Spark dataframe

問題描述

1 個解決方案

解決方案1 2 已采納 2021-03-06 07:38:17

解決方案1
2 已采納 2021-03-06 07:38:17