當輸入參數是從數據幀的兩列連接的值時，Spark UDF 錯誤

Question

以下 python 代碼將csv文件加載到dataframe df ，並將字符串值從df的單個或多個列發送到UDF函數testFunction(...) 。 如果我發送單個列值，則代碼可以正常工作。 但是，如果我從 df 的兩列發送值df.address + " " + df.city ，則會收到以下錯誤：

問題：我可能做錯了什么，我們如何解決這個問題？ df中的所有列都不是 NULL，因此 null 或空字符串不應該是 I 問題。 例如，如果我發送單列值 df.address，則該值有空格（例如 123 Main Street）。 那么，為什么將兩列的連接值發送到 UDF 時會出錯？

錯誤：

PythonException：從 UDF 引發異常：'AttributeError：'NoneType'對象沒有屬性'upper''

from pyspark.sql.types import StringType
from pyspark.sql import functions as F

df = spark.read.csv(".......dfs.core.windows.net/myDataFile.csv", header="true", inferSchema="true")

def testFunction(value):
  mystr = value.upper().replace(".", " ").replace(",", " ").replace("  ", " ").strip()
  return mystr

newFunction = F.udf(testFunction, StringType())

df2 = df.withColumn("myNewCol", newFunction(df.address + " " + df.city))
df2.show()

Answer 1

在 PySpark 中，您不能使用+將 StringType 列連接在一起。 它將返回null ，這會破壞您的 udf。 您可以改用concat 。

df2 = df.withColumn("myNewCol", newFunction(F.concat(df.address, F.lit(" "), df.city)))

當輸入參數是從數據幀的兩列連接的值時，Spark UDF 錯誤

問題描述

1 個解決方案

解決方案1
1 已采納 2022-05-21 18:39:37

當輸入參數是從數據幀的兩列連接的值時，Spark UDF 錯誤

問題描述

1 個解決方案

解決方案1 1 已采納 2022-05-21 18:39:37

解決方案1
1 已采納 2022-05-21 18:39:37