使用udf傳遞列作為參數將自定義列添加到pyspark數據幀

Question

我有一個包含兩列的spark數據框，我試圖添加一個新列，為這些列引用一個新值。 我從包含正確列值的字典中獲取此值

+--------------+--------------------+
|       country|                 zip|
+--------------+--------------------+
|        Brazil|                7541|
|United Kingdom|                5678|
|         Japan|                1234|
|       Denmark|                2345|
|        Canada|                4567|
|         Italy|                6031|
|        Sweden|                4205|
|        France|                6111|
|         Spain|                8555|
|         India|                2552|
+--------------+--------------------+

該國家/地區的正確值應為印度，而郵政編碼應為1234，並存儲在字典中

column_dict = {'country' : 'India', zip: 1234}

我試圖將新列的值設置為“巴西：印度，郵政編碼：1234”，其中該列的值與這些值有所不同。

我已經按照以下方式嘗試過，但是它返回的是空列，但函數返回的是所需的值

     cols = list(df.columns)
     col_list = list(column_dict.keys())

def update(df, cols = cols , col_list = col_list):
   z = []
   for col1, col2 in zip(cols,col_list):
      if col1 == col2:
         if df.col1 != column_dict[col2]: 
            z.append("{'col':" + col2  + ", 'reco': " + str(column_dict[col2]) + "}")   
         else:
            z.append("{'col':" + col2  + ", 'reco': }")

my_udf = udf(lambda x: update(x, cols, col_list))
z = y.withColumn("NewValue", lit(my_udf(y, cols,col_list)))

如果我將相同的輸出數據幀導出到csv值，則這些部分將附加'\\'。 如何以准確的方式獲取列上的函數值？

Answer 1

一種簡單的方法是從dictionary創建一個數據框，然后將其並union()到主數據框，然后進行groupby並獲取last值。 在這里您可以這樣做：

sc = SparkContext.getOrCreate()

newDf = sc.parallelize([
    {'country' : 'India', 'zip': 1234}
]).toDF()

newDF.show()

newDF：

+-------+----+
|country| zip|
+-------+----+
|  India|1234|
+-------+----+

和finalDF：

unionDF = df.union(newDF)

unionDF.show()
+--------------+--------------------+
|       country|                 zip|
+--------------+--------------------+
|        Brazil|                7541|
|United Kingdom|                5678|
|         Japan|                1234|
|       Denmark|                2345|
|        Canada|                4567|
|         Italy|                6031|
|        Sweden|                4205|
|        France|                6111|
|         Spain|                8555|
|         India|                2552|
|         India|                1234|
+--------------+--------------------+

最后，進行groupby和last ：

import pyspark.sql.functions as f

finalDF = unionDF.groupbby('country').agg(f.last('zip'))

finalDF.show()

+--------------+--------------------+
|       country|                 zip|
+--------------+--------------------+
|        Brazil|                7541|
|United Kingdom|                5678|
|         Japan|                1234|
|       Denmark|                2345|
|        Canada|                4567|
|         Italy|                6031|
|        Sweden|                4205|
|        France|                6111|
|         Spain|                8555|
|         India|                1234|
+--------------+--------------------+

使用udf傳遞列作為參數將自定義列添加到pyspark數據幀

問題描述

1 個解決方案

解決方案1
0 2018-12-01 15:21:29

使用udf傳遞列作為參數將自定義列添加到pyspark數據幀

問題描述

1 個解決方案

解決方案1 0 2018-12-01 15:21:29

解決方案1
0 2018-12-01 15:21:29