簡體   English   中英

來自Python包的函數用於Spark數據幀的udf()

[英]Functions from Python packages for udf() of Spark dataframe

對於通過pyspark的Spark數據幀,我們可以使用pyspark.sql.functions.udf來創建user defined function (UDF)

我想知道我是否可以在np.random.normal udf()使用Python包中的任何函數,例如,來自numpy的np.random.normal

假設您想要通過重復調用numpy.random.normal來為您的DataFrame df添加一個名為new的列,您可以這樣做:

import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType

udf = UserDefinedFunction(numpy.random.normal, DoubleType())

df_with_new_column = df.withColumn('new', udf())

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM