[英]How to add an entire list contents into a Pyspark Dataframe row?
我正在從字符串列表中創建一個新的pyspark數據框。 我的代碼應如何顯示?
這是我的列表:['there','is','one','that','commands],這是我理想中想要的:
第1行:['there','is','one','that','commands]第2行:['test','try'
我已經嘗試了以下代碼,但是沒有一個能給我我想要的。
test_list=['hi','bye','thanks']
test_list=sc.parallelize(test_list)
schema = StructType([StructField("name", StringType(), True)])
df3 = sqlContext.createDataFrame(test_list, schema)
和
test_list=['hi','bye','thanks']
test_list=sc.parallelize(test_list)
df3 = sqlContext.createDataFrame(row(test_list), schema)
我無法使用df.show()顯示數據框。
您只需要導入Row對象,就可以了。
from pyspark.sql.types import Row, StructType, StructField, StringType
test_list=['hi','bye','thanks']
test_list=sc.parallelize(test_list)
rdd= test_list.map(lambda t: Row(name=t))
schema = StructType([StructField("name", StringType(), True)])
df = sqlContext.createDataFrame(rdd, schema)
df.show()
+------+
| name|
+------+
| hi|
| bye|
|thanks|
+------+
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.