簡體   English   中英

python正則表達式解析div標簽

[英]python regular expression to parse div tags

有關python正則表達式的問題。

我想匹配一個div塊

<div class="leftTail"><ul class="hotnews">any news stuff</ul></div>

我在想一個像

p = re.compile(r'<div\s+class=\"leftTail\">[^(div)]+</div>')

但似乎無法正常工作

另一種模式

p = re.compile(r'<div\s+class=\"leftTail\">[\W|\w]+</div>')

我得到的比我想象的要多得多,它可以獲取所有內容,直到文件中的最后一個標簽為止。

謝謝你的幫助

您可能要考慮升級到實際的HTML解析器。 我建議您嘗試一下美麗湯 有許多瘋狂的方法可以格式化HTML,即使正確編寫了正則表達式,也可能無法始終正常工作。

不要使用正則表達式來解析XML或HTML。 您將永遠無法使它對於嵌套div正常工作。

嘗試這個:

p = re.compile(r'<div\s+class=\"leftTail\">.*?</div>')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM