如何過濾 pyspark 中的字符串 numpy 數組列

Question

我有一個 pyspark dataframe

import pandas as pd
foo = pd.DataFrame({'col':[['a_b', 'bad'],['a_a', 'good'],[]]})

我想過濾掉col list中'bad'所有行

我試圖先創建一個二進制列，然后過濾這個：

from pyspark.sql import functions as f
foo = foo.withColumn('at_least_one_bad', f.when(f.col("col").array_contains("bad"),f.lit(1)).otherwise(f.lit(0)))

但我得到一個錯誤

類型錯誤：“列”object 不可調用

有任何想法嗎？

Answer 1

您的語法略有偏差 - 請嘗試以下代碼：

import pyspark.sql.functions as f

foo2 = foo.withColumn('at_least_one_bad', f.array_contains('col', 'bad').cast('int'))

foo2.show()
+-----------+----------------+
|        col|at_least_one_bad|
+-----------+----------------+
| [a_b, bad]|               1|
|[a_a, good]|               0|
|         []|               0|
+-----------+----------------+

如何過濾 pyspark 中的字符串 numpy 數組列

問題描述

1 個解決方案

解決方案1
3 已采納 2021-04-08 15:49:37

如何過濾 pyspark 中的字符串 numpy 數組列

問題描述

1 個解決方案

解決方案1 3 已采納 2021-04-08 15:49:37

解決方案1
3 已采納 2021-04-08 15:49:37