[英]PySpark: Add a column to DataFrame when column is a list
我讀過類似的問題,但找不到解決我的具體問題的方法。
我有一個清單
l = [1, 2, 3]
和一個數據幀
df = sc.parallelize([
['p1', 'a'],
['p2', 'b'],
['p3', 'c'],
]).toDF(('product', 'name'))
我想獲得一個新的 DataFrame,其中將列表l
添加為另一列,即
+-------+----+---------+
|product|name| new_col |
+-------+----+---------+
| p1| a| 1 |
| p2| b| 2 |
| p3| c| 3 |
+-------+----+---------+
使用 JOIN 的方法,我在那里加入了 df
sc.parallelize([[1], [2], [3]])
失敗了。 使用withColumn
方法,如
new_df = df.withColumn('new_col', l)
失敗,因為列表不是Column
對象。
因此,通過閱讀這里的一些有趣的東西,我已經確定你不能真正只是將隨機/任意列附加到給定的DataFrame
對象。 看起來你想要的更多的是zip
不是join
。 我環顧四周找到了這張票 ,這讓我覺得如果你有DataFrame
而不是RDD
對象,你將無法zip
。
我能夠解決你的問題的唯一方法就是離開DataFrame
對象的世界並返回到RDD
對象。 我還需要為連接創建索引,這可能適用於您的用例,也可能不適用。
l = sc.parallelize([1, 2, 3])
index = sc.parallelize(range(0, l.count()))
z = index.zip(l)
rdd = sc.parallelize([['p1', 'a'], ['p2', 'b'], ['p3', 'c']])
rdd_index = index.zip(rdd)
# just in case!
assert(rdd.count() == l.count())
# perform an inner join on the index we generated above, then map it to look pretty.
new_rdd = rdd_index.join(z).map(lambda (x, y): [y[0][0], y[0][1], y[1]])
new_df = new_rdd.toDF(["product", 'name', 'new_col'])
當我運行new_df.show()
,我得到:
+-------+----+-------+
|product|name|new_col|
+-------+----+-------+
| p1| a| 1|
| p2| b| 2|
| p3| c| 3|
+-------+----+-------+
旁注:我真的很驚訝這沒用。 看起來像外部聯接?
from pyspark.sql import Row
l = sc.parallelize([1, 2, 3])
new_row = Row("new_col_name")
l_as_df = l.map(new_row).toDF()
new_df = df.join(l_as_df)
當我運行new_df.show()
,我得到:
+-------+----+------------+
|product|name|new_col_name|
+-------+----+------------+
| p1| a| 1|
| p1| a| 2|
| p1| a| 3|
| p2| b| 1|
| p3| c| 1|
| p2| b| 2|
| p2| b| 3|
| p3| c| 2|
| p3| c| 3|
+-------+----+------------+
如果product
列是唯一的,請考慮以下方法:
原始數據幀:
df = spark.sparkContext.parallelize([
['p1', 'a'],
['p2', 'b'],
['p3', 'c'],
]).toDF(('product', 'name'))
df.show()
+-------+----+
|product|name|
+-------+----+
| p1| a|
| p2| b|
| p3| c|
+-------+----+
新列(和新索引列):
lst = [1, 2, 3]
indx = ['p1','p2','p3']
從上面的列表創建一個新的數據框(帶索引):
from pyspark.sql.types import *
myschema= StructType([ StructField("indx", StringType(), True),
StructField("newCol", IntegerType(), True)
])
df1=spark.createDataFrame(zip(indx,lst),schema = myschema)
df1.show()
+----+------+
|indx|newCol|
+----+------+
| p1| 1|
| p2| 2|
| p3| 3|
+----+------+
使用創建的索引將此連接到原始數據框:
dfnew = df.join(df1, df.product == df1.indx,how='left')\
.drop(df1.indx)\
.sort("product")
要得到:
dfnew.show()
+-------+----+------+
|product|name|newCol|
+-------+----+------+
| p1| a| 1|
| p2| b| 2|
| p3| c| 3|
+-------+----+------+
這可以通過 RDD 實現。
1 將數據幀轉換為索引的 rdds:
df_rdd = df.rdd.zipWithIndex().map(lambda row: (row[1], (row[0][0], row[0][1])))
l_rdd = sc.parallelize(l).zipWithIndex().map(lambda row: (row[1], row[0]))
2 在索引、刪除索引和重新排列元素上加入兩個 RDD:
res_rdd = df_rdd.join(l_rdd).map(lambda row: [row[1][0][0], row[1][0][1], row[1][1]])
3 將結果轉換為數據幀:
res_df = res_rdd.toDF(['product', 'name', 'new_col'])
res_df.show()
+-------+----+-------+
|product|name|new_col|
+-------+----+-------+
| p1| a| 1|
| p2| b| 2|
| p3| c| 3|
+-------+----+-------+
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.