繁体 English 中英

HTML解析与Regex

[英]Html Parsing vs. Regex

原文 2014-10-11 20:08:14 0 1 python/ html/ regex/ scala/ html-parsing

我有一个固定的结构良好的html源，传入的数据清晰细小，仅包含一些div列表。 我知道使用html解析器进行html解析，但这看起来很特殊，我不确定应该使用哪个解析器。 下面的问题条件

任何意见都是有价值的，那我该怎么办？

我仍然会坚持使用HTML解析器，因为至少有一个特定的数据格式和一个了解该格式的专用工具。

如果这里的性能很重要，那么会有一个非常快的lxml包。 对于HTML，请使用lxml.html 。

您还可以使用一个很棒的BeautifulSoup软件包，并在lxml使用lxml解析器。 此外，如果您需要解析的数据在HTML文档的特定部分中，则可以通过请求BeautifulSoup仅解析HTML文档的相关部分来提高性能，请参见：仅解析文档的一部分。

并且，为了遵循HTML + regex线程的传统，这里是对著名主题的引用，涵盖了您不应该使用regex解析HTML的原因：

[英]HTML Parsing with Python (HTML vs. complete website)

[英]Node.js vs. Python for parsing HTML

[英]Efficient regex parsing of html

[英]Regex/Beautifulsoup HTML parsing

[英]Python Regex - Parsing HTML

[英]Argument parsing in Python (required vs. optional)

[英]Templates vs. coded HTML

[英]regex tokenizer period vs. ellipsis

[英]Finding links fast: regex vs. lxml

[英]Using decode() vs. regex to unescape this string

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Python进行HTML解析（HTML与完整网站） Node.js与Python解析HTML 高效的html正则表达式解析正则表达式/Beautifulsoup HTML 解析 Python 正则表达式 - 解析 HTML Python中的参数解析（必需与可选）模板与编码的 HTML 正则表达式标记器周期与省略号快速查找链接：正则表达式与lxml 使用decode（）与regex来解除此字符串的转换

相关标签