python正則表達式解析div標簽

Question

有關python正則表達式的問題。

我想匹配一個div塊

<div class="leftTail"><ul class="hotnews">any news stuff</ul></div>

我在想一個像

p = re.compile(r'<div\s+class=\"leftTail\">[^(div)]+</div>')

但似乎無法正常工作

另一種模式

p = re.compile(r'<div\s+class=\"leftTail\">[\W|\w]+</div>')

我得到的比我想象的要多得多，它可以獲取所有內容，直到文件中的最后一個標簽為止。

謝謝你的幫助

Answer 1

您可能要考慮升級到實際的HTML解析器。 我建議您嘗試一下美麗湯。 有許多瘋狂的方法可以格式化HTML，即使正確編寫了正則表達式，也可能無法始終正常工作。

Answer 2

不要使用正則表達式來解析XML或HTML。 您將永遠無法使它對於嵌套div正常工作。

Answer 3

嘗試這個：

p = re.compile(r'<div\s+class=\"leftTail\">.*?</div>')