簡體   English   中英

如何從 Pyspark Dataframe 中的字符串列中過濾字母值?

[英]How to filter alphabetic values from a String column in Pyspark Dataframe?

我有一個需要過濾的字符串列。 我需要獲取所有包含字母或特殊字符的值。

初始列:

ID
12345
23456
3940A
19045
2BB56
3(40A

預期 output:

ID
3940A
2BB56
3(40A

TIA

只需簡單的數字正則表達式就可以解決您的問題。 ^\d+$將捕獲所有完全是數字的值。

from pyspark.sql import functions as F

df.where(F.regexp_extract('id', '^\d+$', 0) == '').show()

+-----+
|   id|
+-----+
|3940A|
|2BB56|
|3(401|
+-----+

這個問題非常模糊,所以這是我能給出的最佳答案:

df_filtered = df.filter(any(not c.isdigit() for c in df.id))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM