簡體 English 中英

HTML解析與Regex

[英]Html Parsing vs. Regex

原文 2014-10-11 20:08:14 2 1 python/ html/ regex/ scala/ html-parsing

我有一個固定的結構良好的html源，傳入的數據清晰細小，僅包含一些div列表。 我知道使用html解析器進行html解析，但這看起來很特殊，我不確定應該使用哪個解析器。 下面的問題條件

任何意見都是有價值的，那我該怎么辦？

我仍然會堅持使用HTML解析器，因為至少有一個特定的數據格式和一個了解該格式的專用工具。

如果這里的性能很重要，那么會有一個非常快的lxml包。 對於HTML，請使用lxml.html 。

您還可以使用一個很棒的BeautifulSoup軟件包，並在lxml使用lxml解析器。 此外，如果您需要解析的數據在HTML文檔的特定部分中，則可以通過請求BeautifulSoup僅解析HTML文檔的相關部分來提高性能，請參見：僅解析文檔的一部分。

並且，為了遵循HTML + regex線程的傳統，這里是對著名主題的引用，涵蓋了您不應該使用regex解析HTML的原因：

[英]HTML Parsing with Python (HTML vs. complete website)

[英]Node.js vs. Python for parsing HTML

[英]Efficient regex parsing of html

[英]Regex/Beautifulsoup HTML parsing

[英]Python Regex - Parsing HTML

[英]Argument parsing in Python (required vs. optional)

[英]Templates vs. coded HTML

[英]regex tokenizer period vs. ellipsis

[英]Finding links fast: regex vs. lxml

[英]Using decode() vs. regex to unescape this string

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用Python進行HTML解析（HTML與完整網站） Node.js與Python解析HTML 高效的html正則表達式解析正則表達式/Beautifulsoup HTML 解析 Python 正則表達式 - 解析 HTML Python中的參數解析（必需與可選）模板與編碼的 HTML 正則表達式標記器周期與省略號快速查找鏈接：正則表達式與lxml 使用decode（）與regex來解除此字符串的轉換

相關標簽