如何修改spark數據幀的一行中的列值？

Question

我正在使用具有以下結構的數據框架

在這里，我需要修改每條記錄，以便如果post_event_list中列出了一列，我需要使用相應的post_column值填充該列。 因此，在上述兩個記錄的示例中，我需要使用post_col4和post_col5值填充col4和col5。 有人可以幫我在pyspark做這個。

Answer 1

也許這就是你想要的pyspark2

假設df是DataFrame

row = df.rdd.first()

d = row.asDict()
d['col4'] = d['post_col4']
new_row = pyspark.sql.types.Row(**d)

現在我們有一個新的Row對象;

把這些代碼放在一個map函數中可以幫助改變所有的df。

Answer 2

您可以在pyspark.sql.functions中使用when / otherwise。 有點喜歡：

import pyspark.sql.functions as sf
from pyspark.sql.types import BooleanType

contains_col4_udf = udf(lambda x: 'col4' in x, BooleanType())
df.select(sf.when(contains_col4_udf('post_event_list'), sf.col('post_col4')).otherwise(sf.col('col_4')).alias('col_4'))

這是doc： https ： //spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html#pyspark.sql.Column.otherwise

如何修改spark數據幀的一行中的列值？

問題描述

2 個解決方案

解決方案1
7 2018-01-26 07:53:04

解決方案2
3 2016-09-09 13:50:11

如何修改spark數據幀的一行中的列值？

問題描述

2 個解決方案

解決方案1 7 2018-01-26 07:53:04

解決方案2 3 2016-09-09 13:50:11

解決方案1
7 2018-01-26 07:53:04

解決方案2
3 2016-09-09 13:50:11