匹配 pyspark dataframe 列以列出并创建新列

Question

I have the below list.我有以下列表。

lst=['name','age','country']

I have the below pyspark dataframe我有以下pyspark dataframe

column_a   column_b
Aaaa       name,age,subject
Bbbb       name,age,country,subject
Cccc       name,subject,percentage

I have to compare the list with column_b and check if the values in the list are part of the column and create a new column and populate it with the values from the list that are available in column_b .我必须将列表与column_b进行比较，并检查列表中的值是否是列的一部分，然后创建一个新列并使用column_b中可用的列表中的值填充它。

Below is the expected output.下面是预期的 output。

column_a column_b                 column_c              
Aaaa     name,age,subject         name,age
Bbbb     name,age,country,subject name,age,country
Cccc     name,subject,percentage  name

Answer 1

Without Duplicates没有重复

array_intersect allows for the operation you want to achieve. array_intersect允许您想要实现的操作。

array_intersect does not allow for duplicates, (ie, ) if column_b had a value of ["name", "name"] then column_c would contain ["name"] once. array_intersect不允许重复，（即）如果column_b的值为["name", "name"]则column_c将包含一次["name"] 。

from pyspark.sql import functions as F

data = [("Aaaa", ["name", "age", "subject"],),
        ("Bbbb", ["name", "age", "country", "subject"],),
        ("Cccc", ["name", "subject", "percentage"],),
        ("Dddd", ["name", "name"],),]

df = spark.createDataFrame(data, ("column_a", "column_b",))

lst=['name','age','country']
lit_lst = [F.lit(v) for v in lst]

df.withColumn("column_c", F.array_intersect(F.col("column_b"), F.array(lit_lst))).show(truncate=False)

Output Output

+--------+-----------------------------+--------------------+
|column_a|column_b                     |column_c            |
+--------+-----------------------------+--------------------+
|Aaaa    |[name, age, subject]         |[name, age]         |
|Bbbb    |[name, age, country, subject]|[name, age, country]|
|Cccc    |[name, subject, percentage]  |[name]              |
|Dddd    |[name, name]                 |[name]              |
+--------+-----------------------------+--------------------+

Preserve Duplicates保留重复项

To preserve duplicates, filter Higher Order Function can be applied.要保留重复项，可以应用filter高阶 Function。

from pyspark.sql import functions as F

data = [("Aaaa", ["name", "age", "subject"],),
        ("Bbbb", ["name", "age", "country", "subject"],),
        ("Cccc", ["name", "subject", "percentage"],),
        ("Dddd", ["name", "name"],),]

df = spark.createDataFrame(data, ("column_a", "column_b",))

df.withColumn("column_c", F.array(lit_lst))\
  .withColumn("column_c", F.expr("filter(column_b, element -> array_contains(column_c, element))"))\
  .show(truncate=False)

Output Output

+--------+-----------------------------+--------------------+
|column_a|column_b                     |column_c            |
+--------+-----------------------------+--------------------+
|Aaaa    |[name, age, subject]         |[name, age]         |
|Bbbb    |[name, age, country, subject]|[name, age, country]|
|Cccc    |[name, subject, percentage]  |[name]              |
|Dddd    |[name, name]                 |[name, name]        |
+--------+-----------------------------+--------------------+

匹配 pyspark dataframe 列以列出并创建新列

问题描述

1 个解决方案

解决方案1
0 2021-12-28 04:58:19

Without Duplicates没有重复

Output Output

Preserve Duplicates保留重复项

Output Output

匹配 pyspark dataframe 列以列出并创建新列

问题描述

1 个解决方案

解决方案1 0 2021-12-28 04:58:19

Without Duplicates没有重复

Output Output

Preserve Duplicates保留重复项

Output Output

解决方案1
0 2021-12-28 04:58:19