![](/img/trans.png)
[英]Adding column to pandas DataFrame containing list of other columns' values
[英]Concatenate columns containing list values in Spark Dataframe
我有一個數據框(火花),它有2列,每列都有列表值。 我想創建一個新列,將2列(以及該列中的列表值)連接起來。 例如
列1具有行值-[A,B]
列2具有行值-[C,D]
“輸出應在新列中,即”
第3列(新創建的列),其行值為-[A,B,C,D]
注意:-列值的值存儲在LIST中
請幫助我用pyspark來實現。 謝謝
我們可以使用UDF作為
>>> from pyspark.sql import functions as F
>>> from pyspark.sql.types import *
>>> udf1 = F.udf(lambda x,y : x+y,ArrayType(StringType()))
>>> df = df.withColumn('col3',udf1('col1','col2'))
請嘗試一下:
spark_frame = spark_frame.withColumn("concatenated_column", spark_frame.list_1_col + spark_frame.list_2_col)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.