如何從 Pyspark Dataframe 中的字符串列中過濾字母值？

Question

我有一個需要過濾的字符串列。 我需要獲取所有包含字母或特殊字符的值。

初始列：

ID
12345
23456
3940A
19045
2BB56
3(40A

預期 output：

ID
3940A
2BB56
3(40A

TIA

Answer 1

只需簡單的數字正則表達式就可以解決您的問題。 ^\d+$將捕獲所有完全是數字的值。

from pyspark.sql import functions as F

df.where(F.regexp_extract('id', '^\d+$', 0) == '').show()

+-----+
|   id|
+-----+
|3940A|
|2BB56|
|3(401|
+-----+

Answer 2

這個問題非常模糊，所以這是我能給出的最佳答案：

df_filtered = df.filter(any(not c.isdigit() for c in df.id))

如何從 Pyspark Dataframe 中的字符串列中過濾字母值？

問題描述

2 個解決方案

解決方案1
1 已采納 2021-12-02 20:07:53

解決方案2
0 2021-12-02 19:56:38

如何從 Pyspark Dataframe 中的字符串列中過濾字母值？

問題描述

2 個解決方案

解決方案1 1 已采納 2021-12-02 20:07:53

解決方案2 0 2021-12-02 19:56:38

解決方案1
1 已采納 2021-12-02 20:07:53

解決方案2
0 2021-12-02 19:56:38