繁体   English   中英

python beautifulsoup:lxml html.parser

[英]python beautifulsoup : lxml html.parser

我必须使用 beautifulsoup,但我不知道我必须使用哪个解析器。 我在 lxml 和 html.parser 之间犹豫不决,或者为什么不两者兼而有之。 如何知道网页是否符合 lxml 标准? 如何知道网页是否符合 html 解析器? 非常感谢

没有银弹。 不同的 HTML 解析器的行为不同,您应该选择适用于您的特定页面的那个。 在这种情况下工作基本上意味着您可以获得所需的数据。

lxml解析器通常更快, html5lib是最宽松的解析器 - 如果您要解析损坏的或格式不正确的 HTML,这种差异将是相关的。 html.parser是内置的,如果这是一个问题,它可以帮助避免额外的依赖。 这是一个突出差异的相关表格

我学得很辛苦。 它一直在杀死我。 我只是想不通为什么我想要的标签包含该标签中没有的东西。 结果发现 html 解析器无法在该站点上正常工作。 经过数小时的头痛之后,我突然尝试切换到 lxml 解析器,你瞧……那些不值得的东西已经消失了!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM