lxml解析中的命名空间参数

Question

我有一个要解析的HTML页面。 这是我对lxml的处理方式：

node=etree.fromstring(html)
>>> node
<Element {http://www.w3.org/1999/xhtml}html at 0x110676a70>
>>> node.xpath('//body')
[]
>>> node.xpath('body')
[]

不幸的是，我所有的xpath调用现在都返回一个空列表。 为什么会发生这种情况，我将如何解决此呼叫？

Answer 1

您可以在此处添加名称空间，如下所示：

>>> node.xpath('//xmlns:tr', namespaces={'xmlns':'http://www.w3.org/1999/xhtml'})
[<Element {http://www.w3.org/1999/xhtml}tr at 0x11067b6c8>, <Element {http://www.w3.org/1999/xhtml}tr at 0x11067b710>]

更好的方法是使用lxml's html解析器：

>>> node=lxml.html.fromstring(html)
>>> node.findall('body')
[<Element body at 0x1106b8f18>]

Answer 2

查询时需要使用名称空间前缀。 喜欢

node.xpath('//html:body', namespaces={'html': 'http://...'})

或者您可以使用.nsmap

node.xpath('//html:body', namespaces=node.nsmap)

假设所有名称空间均在node指向的标记上定义。 对于大多数xml文档来说通常都是这样。

lxml解析中的命名空间参数

问题描述

2 个解决方案

解决方案1
1 2015-02-08 20:58:59

解决方案2
1 已采纳 2015-02-08 21:16:01

lxml解析中的命名空间参数

问题描述

2 个解决方案

解决方案1 1 2015-02-08 20:58:59

解决方案2 1 已采纳 2015-02-08 21:16:01

解决方案1
1 2015-02-08 20:58:59

解决方案2
1 已采纳 2015-02-08 21:16:01