[英]Html Parsing vs. Regex
我有一個固定的結構良好的html源,傳入的數據清晰細小,僅包含一些div列表。 我知道使用html解析器進行html解析,但這看起來很特殊,我不確定應該使用哪個解析器。 下面的問題條件
任何意見都是有價值的,那我該怎么辦?
我仍然會堅持使用HTML解析器,因為至少有一個特定的數據格式和一個了解該格式的專用工具。
如果這里的性能很重要,那么會有一個非常快的lxml
包。 對於HTML,請使用lxml.html
。
您還可以使用一個很棒的BeautifulSoup
軟件包,並在lxml
使用lxml
解析器 。 此外,如果您需要解析的數據在HTML文檔的特定部分中,則可以通過請求BeautifulSoup
僅解析HTML文檔的相關部分來提高性能,請參見: 僅解析文檔的一部分 。
並且,為了遵循HTML + regex線程的傳統,這里是對著名主題的引用,涵蓋了您不應該使用regex解析HTML的原因:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.