需要有關Python中的正則表達式的幫助

Question

請從以下字符串中進行幫助：

<a href="http://testsite.com" class="className">link_text_part1 <em>another_text</em> link_text_part2</a>

像這樣的字符串：

link_text_part1 another_text link_text_part2

在Python中使用正則表達式

！note testsite.com更改

Answer 1

因此，您要刪除<a>和<em>標記嗎？ 可以這樣完成：

>>> s = '<a href="http://testsite.com" class="className">link_text_part1 <em>another_text</em> link_text_part2</a>'

>>> re.sub("</?(a|em).*?>", "", s)
'link_text_part1 another_text link_text_part2'

用英語搜索：

一個<字符
（可選）后跟一個/（以獲取結束標記）
后跟“ a”或“ em”
后跟直到第一個>字符的所有字符

並將其替換為空字符串。

但是，正如Kos所說，使用正則表達式解析HTML的風險很大且脆弱，除非您知道所解析的HTML格式永遠不會改變。

Answer 2

string = re.sub('<[^>]+>', '', string)

Answer 3

強烈建議不要使用正則表達式解析HTML，即使是在簡單情況下也是如此。 您永遠不會知道何時打入一些會混淆正則表達式的HTML代碼。

簡單的HTML解析器通常是更可靠，更優雅的解決方案。

Answer 4

順便說一句。 這有助於：

from scrapy.utils.markup import remove_tags  
...
bbb=remove_tags(aaa)

需要有關Python中的正則表達式的幫助

問題描述

4 個解決方案

解決方案1
1 已采納 2010-07-23 10:37:25

解決方案2
1 2010-07-23 10:43:45

解決方案3
1 2010-07-23 10:43:53

解決方案4
0 2010-07-25 14:35:08

需要有關Python中的正則表達式的幫助

問題描述

4 個解決方案

解決方案1 1 已采納 2010-07-23 10:37:25

解決方案2 1 2010-07-23 10:43:45

解決方案3 1 2010-07-23 10:43:53

解決方案4 0 2010-07-25 14:35:08

解決方案1
1 已采納 2010-07-23 10:37:25

解決方案2
1 2010-07-23 10:43:45

解決方案3
1 2010-07-23 10:43:53

解決方案4
0 2010-07-25 14:35:08