如何使用 LXML 解析损坏的 HTML

Question

I'm trying to parse a broken HTML with LXML parser on python 2.5 and 2.7我正在尝试在 python 2.5 和 2.7 上使用 LXML 解析器解析损坏的 HTML

Unlike in LXML documentation ( http://lxml.de/parsing.html#parsing-html ) parsing a broken HTML does not work:与 LXML 文档 ( http://lxml.de/parsing.html#parsing-html ) 不同，解析损坏的 HTML 不起作用：

from lxml import etree
import StringIO
broken_html = "<html><head><title>test<body><h1>page title</h3>"
parser = etree.HTMLParser()
tree   = etree.parse(StringIO.StringIO(broken_html))

Result:结果：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "lxml.etree.pyx", line 2954, in lxml.etree.parse (src/lxml/lxml.etree.c:56220)
  File "parser.pxi", line 1550, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:82482)
  File "parser.pxi", line 1578, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:82764)
  File "parser.pxi", line 1457, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:81562)
  File "parser.pxi", line 965, in lxml.etree._BaseParser._parseDoc (src/lxml/lxml.etree.c:78232)
  File "parser.pxi", line 569, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:74488)
  File "parser.pxi", line 650, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:75379)
  File "parser.pxi", line 590, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:74712)
lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: h1 line 1 and h3, line 1, column 50

Answer 1

Don't just construct that parser, use it (as per the example you link to):不要只是构建该解析器，而是使用它（根据您链接到的示例）：

>>> tree = etree.parse(StringIO.StringIO(broken_html), parser=parser)
>>> tree
<lxml.etree._ElementTree object at 0x2fd8e60>

Or use lxml.html as a shortcut:或者使用lxml.html作为快捷方式：

>>> from lxml import html
>>> broken_html = "<html><head><title>test<body><h1>page title</h3>"
>>> html.fromstring(broken_html)
<Element html at 0x2dde650>

Answer 2

lxml allows you load a broken xml by creating a parser instance with recover=True lxml 允许您通过使用recover=True创建解析器实例来加载损坏的 xml

etree.HTMLParser(recover=True)

You could use the same technique when creating the parser.您可以在创建解析器时使用相同的技术。

Answer 3

You might try to use lxml.html instead您可以尝试使用 lxml.html 代替

>>> import lxml.html
>>> broken_html = "<html><head><title>test<body><h1>page title</h3>"
>>> root = lxml.html.fromstring(broken_html)
>>> lxml.html.tostring(root)
'<html><head><title>test</title></head><body><h1>page title</h1></body></html>'

如何使用 LXML 解析损坏的 HTML

问题描述

3 个解决方案

解决方案1
26 已采纳 2013-10-01 14:04:55

解决方案2
11 2014-11-07 03:18:04

解决方案3
8 2013-10-01 14:07:15

如何使用 LXML 解析损坏的 HTML

问题描述

3 个解决方案

解决方案1 26 已采纳 2013-10-01 14:04:55

解决方案2 11 2014-11-07 03:18:04

解决方案3 8 2013-10-01 14:07:15

解决方案1
26 已采纳 2013-10-01 14:04:55

解决方案2
11 2014-11-07 03:18:04

解决方案3
8 2013-10-01 14:07:15