用循環Pyspark連接多列

Question

我有n個字符串列數組。 我想使用循環將這n列連接在一起。

我有此功能來連接列：

def concat(type):
    def concat_(*args):
        return list(chain(*args))
    return udf(concat_, ArrayType(type))

concat_string_arrays = concat(StringType())

在下面的示例中，我將有4列這樣連接：

df_aux = df.select('ID_col',concat_string_arrays(col("patron_txt_1"),col("patron_txt_2"),col('patron_txt_3'),col('patron_txt_0')).alias('patron_txt')

但是，如果我有200列，如何在循環中動態使用此函數？

Answer 1

您可以使用*運算符將列列表傳遞給concat UDF：

from itertools import chain
from pyspark.sql.functions import col, udf
from pyspark.sql.types import *

df = sqlContext.createDataFrame([("1", "2","3","4"), 
                                 ("5","6","7","8")], 
                                 ('ID_col', 'patron_txt_0','patron_txt_1','patron_txt_2'))  

def concat(type):
    def concat_(*args):
        return list(chain(*args))
    return udf(concat_, ArrayType(type))


concat_string_arrays = concat(StringType())

#Select the columns you want to concatenate 
cols = [c for c in df.columns if c.startswith("patron_txt")]

#Use the * operator to pass multiple columns to concat_string_arrays
df.select('ID_col',concat_string_arrays(*cols).alias('patron_txt')).show()

結果為以下輸出：

+------+----------+
|ID_col|patron_txt|
+------+----------+
|     1| [2, 3, 4]|
|     5| [6, 7, 8]|
+------+----------+

用循環Pyspark連接多列

問題描述

1 個解決方案

解決方案1
0 已采納 2018-01-17 10:11:17

用循環Pyspark連接多列

問題描述

1 個解決方案

解決方案1 0 已采納 2018-01-17 10:11:17

解決方案1
0 已采納 2018-01-17 10:11:17