[英]Concat multiple columns with loop Pyspark
我有n个字符串列数组。 我想使用循环将这n列连接在一起。
我有此功能来连接列:
def concat(type):
def concat_(*args):
return list(chain(*args))
return udf(concat_, ArrayType(type))
concat_string_arrays = concat(StringType())
在下面的示例中,我将有4列这样连接:
df_aux = df.select('ID_col',concat_string_arrays(col("patron_txt_1"),col("patron_txt_2"),col('patron_txt_3'),col('patron_txt_0')).alias('patron_txt')
但是,如果我有200列,如何在循环中动态使用此函数?
您可以使用*
运算符将列列表传递给concat UDF:
from itertools import chain
from pyspark.sql.functions import col, udf
from pyspark.sql.types import *
df = sqlContext.createDataFrame([("1", "2","3","4"),
("5","6","7","8")],
('ID_col', 'patron_txt_0','patron_txt_1','patron_txt_2'))
def concat(type):
def concat_(*args):
return list(chain(*args))
return udf(concat_, ArrayType(type))
concat_string_arrays = concat(StringType())
#Select the columns you want to concatenate
cols = [c for c in df.columns if c.startswith("patron_txt")]
#Use the * operator to pass multiple columns to concat_string_arrays
df.select('ID_col',concat_string_arrays(*cols).alias('patron_txt')).show()
结果为以下输出:
+------+----------+
|ID_col|patron_txt|
+------+----------+
| 1| [2, 3, 4]|
| 5| [6, 7, 8]|
+------+----------+
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.