在 pyspark [非熊貓] 中為 dataframe 的每一行調用 function

Question

pyspark中有一個function：

def sum(a,b):
    c=a+b
    return c

它必須使用火花 sql 在非常非常大的 dataframe 的每條記錄上運行：

x = sum(df.select["NUM1"].first()["NUM1"], df.select["NUM2"].first()["NUM2"])

但這只會為 df 的第一條記錄而不是所有行運行它。 我知道可以使用 lambda 來完成，但我無法以所需的方式對其進行編碼。

事實上; c 將是 dataframe 和 function 會做很多火花。ZAC5C74B64AFFB4BAC231 我必須為每一行調用 function。 我想，我會試着用這個sum(a,b)作為類比來理解它。

+----------+----------+-----------+
|     NUM1 |     NUM2 |    XYZ    |
+----------+----------+-----------+
|      10  |     20   |      HELLO|                                    
|      90  |     60   |      WORLD|
|      50  |     45   |      SPARK|
+----------+----------+-----------+


+----------+----------+-----------+------+
|     NUM1 |     NUM2 |    XYZ    | VALUE|
+----------+----------+-----------+------+
|      10  |     20   |      HELLO|30    |                                     
|      90  |     60   |      WORLD|150   |
|      50  |     45   |      SPARK|95    |
+----------+----------+-----------+------+

Python: 3.7.4
Spark: 2.2

Answer 1

您可以使用.withColumn function：

from pyspark.sql.functions import col
from pyspark.sql.types import LongType
df.show()
+----+----+-----+
|NUM1|NUM2|  XYZ|
+----+----+-----+
|  10|  20|HELLO|
|  90|  60|WORLD|
|  50|  45|SPARK|
+----+----+-----+

def mysum(a,b):
  return a + b

spark.udf.register("mysumudf", mysum, LongType())

df2 = df.withColumn("VALUE", mysum(col("NUM1"),col("NUM2"))

df2.show()
+----+----+-----+-----+
|NUM1|NUM2|  XYZ|VALUE|
+----+----+-----+-----+
|  10|  20|HELLO|   30|
|  90|  60|WORLD|  150|
|  50|  45|SPARK|   95|
+----+----+-----+-----+

Answer 2

使用以下簡單方法：

導入pyspark.sql函數
從 pyspark.sql 導入功能為 F
使用 F.expr() function
df.withColumn("VALUE",F.expr("NUM1+NUM2")

Answer 3

我們可以通過以下方式做到這一點，而注冊 udf 第三個參數是返回類型不是強制性的。

from pyspark.sql import functions as F
df1 = spark.createDataFrame([(10,20,'HELLO'),(90,60,'WORLD'),(50,45,'SPARK')],['NUM1','NUM2','XYZ'])
df1.show()
df2=df1.withColumn('VALUE',F.expr('NUM1 + NUM2'))
df2.show(3,False)
+----+----+-----+-----+
|NUM1|NUM2|XYZ  |VALUE|
+----+----+-----+-----+
|10  |20  |HELLO|30   |
|90  |60  |WORLD|150  |
|50  |45  |SPARK|95   |
+----+----+-----+-----+


(or)

def sum(c1,c2):
    return c1+c2
spark.udf.register('sum_udf1',sum)
df2=df1.withColumn('VALUE',F.expr("sum_udf1(NUM1,NUM2)"))
df2.show(3,False)
+----+----+-----+-----+
|NUM1|NUM2|XYZ  |VALUE|
+----+----+-----+-----+
|10  |20  |HELLO|30   |
|90  |60  |WORLD|150  |
|50  |45  |SPARK|95   |
+----+----+-----+-----+
(or)

sum_udf2=F.udf(lambda x,y: x+y)
df2=df1.withColumn('VALUE',sum_udf2('NUM1','NUM2'))
df2.show(3,False)
+----+----+-----+-----+
|NUM1|NUM2|XYZ  |VALUE|
+----+----+-----+-----+
|10  |20  |HELLO|30   |
|90  |60  |WORLD|150  |
|50  |45  |SPARK|95   |
+----+----+-----+-----+

在 pyspark [非熊貓] 中為 dataframe 的每一行調用 function

問題描述

3 個解決方案

解決方案1
2 已采納 2019-11-12 18:01:06

解決方案2
0 2020-08-14 10:06:52

解決方案3
0 2020-08-14 13:22:38

在 pyspark [非熊貓] 中為 dataframe 的每一行調用 function

問題描述

3 個解決方案

解決方案1 2 已采納 2019-11-12 18:01:06

解決方案2 0 2020-08-14 10:06:52

解決方案3 0 2020-08-14 13:22:38

解決方案1
2 已采納 2019-11-12 18:01:06

解決方案2
0 2020-08-14 10:06:52

解決方案3
0 2020-08-14 13:22:38