更改DataFrame中的列DataType并将其传递到UDF-PySpark

Question

我目前正在对涉及改变几个类型的问题Columns在一个DataFrame ，但我不知道我怎样才能将它传递到一个udf ，因为我所创建的函数需要一个dictionary作为参数，因此，我不知道如何将函数传递到udf 。

我目前拥有的所有数据类型均为String类型，但是正如我提到的，我需要将它们更改为其他类型，例如Integer & Date 。

我的函数看起来像这样：

def columns_types_transformer(df, reformating_dict):
    for column, new_type in reformating_dict.items():
        df = df.withColumn(column, df[column].cast(new_type))
    return df

我想通过的字典看起来像这样：

dictionary = {'date1': DateType(), 'date2': DateType(), 'date3': DateType(), 'date4': DateType(), 'date5': DateType(), 'date6': DateType(), 'integer1': IntegerType()}

我的问题是如何将具有正确类型的字典传递给udf？ 我想到的另一种方法是使用SQLTransformer，但也不确定如何做到这一点。

任何帮助，将不胜感激。

Answer 1

我设法使用SQLTransformer解决了这个问题。

这就是我所做的

sqlTrans_formatter = SQLTransformer(statement="SELECT CAST(date1 AS date), CAST(date2 AS date), CAST(date3 AS date), CAST(date4 AS date), CAST(date5 AS date), CAST(date6 AS date), CAST(integer1 AS int) FROM __THIS__")

df = sqlTrans_formatter.transform(ddf)

希望对其他人也有帮助。

更改DataFrame中的列DataType并将其传递到UDF-PySpark

问题描述

1 个解决方案

解决方案1
1 已采纳 2018-05-24 13:03:48

更改DataFrame中的列DataType并将其传递到UDF-PySpark

问题描述

1 个解决方案

解决方案1 1 已采纳 2018-05-24 13:03:48

解决方案1
1 已采纳 2018-05-24 13:03:48