如何將一列中的字典列表拆分為 pyspark dataframe 中的兩列？

Question

我想將上面的 spark dataframe 的過濾地址列拆分為兩個新列，即標志和地址：

customer_id|pincode|filteredaddress|                                                              Flag| Address
1000045801 |121005 |[{'flag':'0', 'address':'House number 172, Parvatiya Colony Part-2 , N.I.T'}]
1000045801 |121005 |[{'flag':'1', 'address':'House number 172, Parvatiya Colony Part-2 , N.I.T'}]
1000045801 |121005 |[{'flag':'1', 'address':'House number 172, Parvatiya Colony Part-2 , N.I.T'}]

誰能告訴我我該怎么做？

Answer 1

您可以使用以下鍵從filteredaddress地址 map 列中獲取值：

df2 = df.selectExpr(
    'customer_id', 'pincode',
    "filteredaddress['flag'] as flag", "filteredaddress['address'] as address"
)

訪問 map 值的其他方法是：

import pyspark.sql.functions as F

df.select(
    'customer_id', 'pincode',
    F.col('filteredaddress')['flag'],
    F.col('filteredaddress')['address']
)

# or, more simply

df.select(
    'customer_id', 'pincode',
    'filteredaddress.flag',
    'filteredaddress.address'
)

如何將一列中的字典列表拆分為 pyspark dataframe 中的兩列？

問題描述

1 個解決方案

解決方案1
1 2021-02-18 16:05:56

如何將一列中的字典列表拆分為 pyspark dataframe 中的兩列？

問題描述

1 個解決方案

解決方案1 1 2021-02-18 16:05:56

解決方案1
1 2021-02-18 16:05:56