Python lxml XPath问题

Question

我正在尝试从网页打印/保存某个元素的HTML。
我从firebug中检索了所请求的元素的XPath。

我希望将此元素保存到文件中。 我似乎没有成功。
（尝试使用和不使用/text()的XPath）

我将不胜感激任何帮助或过去的经验。
10x，大卫

import urllib2,StringIO
from lxml import etree

url='http://www.tutiempo.net/en/Climate/Londres_Heathrow_Airport/12-2009/37720.htm'
seite = urllib2.urlopen(url)
html = seite.read()
seite.close()
parser = etree.HTMLParser()
tree = etree.parse(StringIO.StringIO(html), parser)
xpath = "/html/body/table/tbody/tr/td[2]/div/table/tbody/tr[6]/td/table/tbody/tr/td[3]/table/tbody/tr[3]/td/table/tbody/tr/td/table/tbody/tr/td/table/tbody/text()"
elem = tree.xpath(xpath)


print elem[0].strip().encode("utf-8")

Answer 1

你的XPath显然有点太长了，你为什么不尝试更短的XPath，看看它们是否匹配。 一个问题可能是由浏览器在DOM中自动创建的“tbody”，但HTML标记通常不包含它。

以下是如何使用XPath结果的示例：

>>> from lxml import etree
>>> from StringIO import StringIO
>>> doc = etree.parse(StringIO("<html><body>a<something/>b</body></root>"), etree.HTMLParser())
>>> doc.xpath("/html/body/text()")
['a', 'b']

因此，如果需要，您可以只将"".join(...)所有文本部分组合在一起。

Answer 2

不确定我是否完全遵循您要完成的任务，但最终我认为您正在寻找：

print etree.tostring(elem[0])

Python lxml XPath问题

问题描述

2 个解决方案

解决方案1
11 已采纳 2011-03-17 00:13:04

解决方案2
0 2011-03-17 00:07:14

Python lxml XPath问题

问题描述

2 个解决方案

解决方案1 11 已采纳 2011-03-17 00:13:04

解决方案2 0 2011-03-17 00:07:14

解决方案1
11 已采纳 2011-03-17 00:13:04

解决方案2
0 2011-03-17 00:07:14