簡體   English   中英

使用 python 中的正則表達式從字符串中刪除特定模式

[英]Removing specific pattern from a string using regex in python

我正在嘗試使用以下代碼刪除模式

x = "mr<u+092d><u+093e><u+0935><u+0941><u+0915>" 
pattern = '[<u+0-9de>]'
re.sub(pattern,'', x)

Output

mr

這個 output 實際上對於給定的示例字符串是正確的,但是當我將此代碼運行到語料庫時,它會刪除所有出現的“de”以及數字等。我希望這些東西僅在使用 < > 時被替換。

你需要把<>放在外面,因為結構總是

  • <開頭
  • 跟着u\+
  • 來自 Unicode 定義的 4 個六進制字符[0-9a-f]{4}
  • >結尾
pattern = '<u\+[0-9a-f]{4}>'
re.sub(pattern,'', x)

REGEX DEMOCODE DEMO

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM