繁体   English   中英

使用lxml / xpath()从站点抓取文本时出现问题

[英]Trouble with scraping text from site using lxml / xpath()

快速的。 我是使用lxml的新手,并且花了很长时间尝试从特定站点抓取文本数据。 元素结构如下所示:

http://tinypic.com/r/2iw7zaa/8

我要做的是提取突出显示区域中显示的100,100。 我尝试过的语句包括(我将网站的源保存到一个文本文件中进行测试,即test.txt-也尝试了html扩展名):

from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')

结果,我似乎得到的只是一个空列表[],我们将不胜感激。

附言:当我展示我尝试的内容时,我注释掉了两个值语句。 我尝试了许多其他类似上面的xpath语句,但是由于python shell崩溃了,它们丢失了。

PPS。 对图片链接的道歉-由于代表,我无法直接发布图片。

尝试从xpath中删除“ / tbody”。

浏览器可能会添加`/ tbody'标签,而它可能不会出现在原始HTML中。

在这里这里阅读更多。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM