如何在pyspark中的ArrayType()的另一列中获取列的值的索引？

Question

我正在使用火花 2.4。
我在 spark 数据框中有一个 ArrayType(StringType()) 列和一个 StringType() 列。 我需要在 ArrayType(StringType()) 列中找到 StringType() 列的位置。

样本输入：

+---------------+---------+
|arrayCol       |stringCol|
+---------------+---------+
|['a', 'b', 'c']|'b'      |
+---------------+---------+
|['a', 'b', 'c']|'d'      |
+---------------+---------+

示例输出：

+---------------+---------+-----+
|arrayCol       |stringCol|Index|
+---------------+---------+-----+
|['a', 'b', 'c']|'b'      |2    |
+---------------+---------+-----+
|['a', 'b', 'c']|'d'      |null |
+---------------+---------+-----+

我试过 array_position 但它不起作用，我收到“列不可迭代”错误。
我也尝试过结合 expr、transform 和 array_position，但我想知道是否有不需要使用 expr 的解决方案。
谢谢：）

Answer 1

尝试使用带有array_position函数的expr 。

Example:

df.show()
#+---------+---------+
#| arrayCol|stringCol|
#+---------+---------+
#|[a, b, c]|        b|
#|[a, b, c]|        d|
#+---------+---------+

from pyspark.sql.functions import *
df.withColumn("Index",expr('if(array_position(arrayCol,stringCol)=0,null,array_position(arrayCol,stringCol))')).\
show()
#+---------+---------+-----+
#| arrayCol|stringCol|Index|
#+---------+---------+-----+
#|[a, b, c]|        b|    2|
#|[a, b, c]|        d| null|
#+---------+---------+-----+

如何在pyspark中的ArrayType()的另一列中获取列的值的索引？

问题描述

1 个解决方案

解决方案1
1 2020-09-04 19:52:42

如何在pyspark中的ArrayType()的另一列中获取列的值的索引？

问题描述

1 个解决方案

解决方案1 1 2020-09-04 19:52:42

解决方案1
1 2020-09-04 19:52:42