繁体   English   中英

来自Python包的函数用于Spark数据帧的udf()

[英]Functions from Python packages for udf() of Spark dataframe

对于通过pyspark的Spark数据帧,我们可以使用pyspark.sql.functions.udf来创建user defined function (UDF)

我想知道我是否可以在np.random.normal udf()使用Python包中的任何函数,例如,来自numpy的np.random.normal

假设您想要通过重复调用numpy.random.normal来为您的DataFrame df添加一个名为new的列,您可以这样做:

import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType

udf = UserDefinedFunction(numpy.random.normal, DoubleType())

df_with_new_column = df.withColumn('new', udf())

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM