[英]How to pass DataFrame as input to Spark UDF?
我在 python 中编写了代码,例如:environment:Zeppelin
def variabletype(dataframe):
df = dataframe
num_col_list=['int','float']
numerical_columns ##etc
return cols_list_df
variabletype(df)
我需要在 pyspark dataframe 上申请相同的 function 怎么办?
使用您当前使用的相同方法,例如
df = spark.createDataFrame(['a', 'a', 'a', 'a', 'a', 'b', 'b', 'b', 'a', 'a', 'b'], 'string').toDF("Data")
def print_cols(df):
print(df.columns)
print_cols(df)
Output:
['Data']
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.