[英]python regular expression to parse div tags
有關python正則表達式的問題。
我想匹配一個div塊
<div class="leftTail"><ul class="hotnews">any news stuff</ul></div>
我在想一個像
p = re.compile(r'<div\s+class=\"leftTail\">[^(div)]+</div>')
但似乎無法正常工作
另一種模式
p = re.compile(r'<div\s+class=\"leftTail\">[\W|\w]+</div>')
我得到的比我想象的要多得多,它可以獲取所有內容,直到文件中的最后一個標簽為止。
謝謝你的幫助
您可能要考慮升級到實際的HTML解析器。 我建議您嘗試一下美麗湯 。 有許多瘋狂的方法可以格式化HTML,即使正確編寫了正則表達式,也可能無法始終正常工作。
不要使用正則表達式來解析XML或HTML。 您將永遠無法使它對於嵌套div正常工作。
嘗試這個:
p = re.compile(r'<div\s+class=\"leftTail\">.*?</div>')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.