如何解析类似HTML的错误？

Question

我的数据看起来像是HTML文档的一部分。 但是其中有一些错误，例如

<td class= foo"bar">

我尝试过的所有解析器（lxml，xml.etree）都因错误而失败。

由于我实际上并不关心文档的这一特定部分，因此我正在寻找一个更强大的解析器。

例如，在某些我可以允许特定子树中的错误被忽略的地方，或者可能只是不插入节点或仅会延迟解析我正在遍历的树的某些部分。

Answer 1

您正在使用XML解析器。 XML是一种严格的语言，而HTML标准则要求解析器能够容忍错误。

使用兼容的HTML解析器（例如lxml.html或html5lib ，或包装器库BeautifulSoup （将先前的任何一个与更清洁的API结合使用）。 html5lib速度较慢，但紧密模仿了现代浏览器如何处理错误。

Answer 2

使用lxml：

创建一个HTML解析器，将recover设置为True：

parser = etree.HTMLParser(recover=True)
tree   = etree.parse(StringIO(broken_html), parser)