如何將整個列表內容添加到Pyspark數據框行中？

Question

我正在從字符串列表中創建一個新的pyspark數據框。 我的代碼應如何顯示？

這是我的列表：['there'，'is'，'one'，'that'，'commands]，這是我理想中想要的：

字（標題）

第1行：['there'，'is'，'one'，'that'，'commands]第2行：['test'，'try'

我已經嘗試了以下代碼，但是沒有一個能給我我想要的。

test_list=['hi','bye','thanks']
test_list=sc.parallelize(test_list)

schema = StructType([StructField("name", StringType(), True)])
df3 = sqlContext.createDataFrame(test_list, schema)

和

test_list=['hi','bye','thanks']
test_list=sc.parallelize(test_list)
df3 = sqlContext.createDataFrame(row(test_list), schema)

我無法使用df.show（）顯示數據框。

Answer 1

您只需要導入Row對象，就可以了。

from pyspark.sql.types import Row, StructType, StructField, StringType
test_list=['hi','bye','thanks']
test_list=sc.parallelize(test_list)

rdd= test_list.map(lambda t: Row(name=t))
schema = StructType([StructField("name", StringType(), True)])
df = sqlContext.createDataFrame(rdd, schema)
df.show()
+------+
|  name|
+------+
|    hi|
|   bye|
|thanks|
+------+

如何將整個列表內容添加到Pyspark數據框行中？

問題描述

字（標題）

1 個解決方案

解決方案1
-1 已采納 2019-02-18 12:39:47

如何將整個列表內容添加到Pyspark數據框行中？

問題描述

字（標題）

1 個解決方案

解決方案1 -1 已采納 2019-02-18 12:39:47

解決方案1
-1 已采納 2019-02-18 12:39:47