繁体   English   中英

HTML解析与Regex

[英]Html Parsing vs. Regex

我有一个固定的结构良好的html源,传入的数据清晰细小,仅包含一些div列表。 我知道使用html解析器进行html解析,但这看起来很特殊,我不确定应该使用哪个解析器。 下面的问题条件

  • 数据清晰且结构合理
  • 数据小
  • 性能很重要,应用程序必须能够获取尽可能多的数据
  • 应用程序将数据写入MongoDB数据库
  • 实现编程语言将为Scala或Python

任何意见都是有价值的,那我该怎么办?

我仍然会坚持使用HTML解析器,因为至少有一个特定的数据格式和一个了解该格式的专用工具。

如果这里的性能很重要,那么会有一个非常快的lxml包。 对于HTML,请使用lxml.html

您还可以使用一个很棒的BeautifulSoup软件包,并lxml使用lxml解析器 此外,如果您需要解析的数据在HTML文档的特定部分中,则可以通过请求BeautifulSoup仅解析HTML文档的相关部分来提高性能,请参见: 仅解析文档的一部分

并且,为了遵循HTML + regex线程的传统,这里是对著名主题的引用,涵盖了您不应该使用regex解析HTML的原因:

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM