使用lxml / xpath（）从站点抓取文本时出现问题

Question

快速的。 我是使用lxml的新手，并且花了很长时间尝试从特定站点抓取文本数据。 元素结构如下所示：

我要做的是提取突出显示区域中显示的100,100。 我尝试过的语句包括（我将网站的源保存到一个文本文件中进行测试，即test.txt-也尝试了html扩展名）：

from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')

结果，我似乎得到的只是一个空列表[]，我们将不胜感激。

附言：当我展示我尝试的内容时，我注释掉了两个值语句。 我尝试了许多其他类似上面的xpath语句，但是由于python shell崩溃了，它们丢失了。

PPS。 对图片链接的道歉-由于代表，我无法直接发布图片。

Answer 1

尝试从xpath中删除“ / tbody”。

浏览器可能会添加`/ tbody'标签，而它可能不会出现在原始HTML中。

在这里和这里阅读更多。

使用lxml / xpath（）从站点抓取文本时出现问题

问题描述

1 个解决方案

解决方案1
1 已采纳 2014-09-29 15:40:50

使用lxml / xpath（）从站点抓取文本时出现问题

问题描述

1 个解决方案

解决方案1 1 已采纳 2014-09-29 15:40:50

解决方案1
1 已采纳 2014-09-29 15:40:50