簡體   English   中英

連接包含Spark Dataframe中列表值的列

[英]Concatenate columns containing list values in Spark Dataframe

我有一個數據框(火花),它有2列,每列都有列表值。 我想創建一個新列,將2列(以及該列中的列表值)連接起來。 例如

列1具有行值-[A,B]

列2具有行值-[C,D]

“輸出應在新列中,即”

第3列(新創建的列),其行值為-[A,B,C,D]

注意:-列值的值存儲在LIST中

請幫助我用pyspark來實現。 謝謝

我們可以使用UDF作為

 >>> from pyspark.sql import functions as F
 >>> from pyspark.sql.types import *
 >>> udf1 = F.udf(lambda x,y : x+y,ArrayType(StringType()))
 >>> df = df.withColumn('col3',udf1('col1','col2'))

請嘗試一下:

spark_frame = spark_frame.withColumn("concatenated_column", spark_frame.list_1_col + spark_frame.list_2_col)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM