xpath在此网站上不起作用

Question

我正在从justproperty.com抓取单个列表页面（原始问题中的单个列表不再有效）。

我想获得Ref的价值

这是我的xpath：

>>> sel.xpath('normalize-space(.//div[@class="info_div"]/table/tbody/tr/td[norma
lize-space(text())="Ref:"]/following-sibling::td[1]/text())').extract()[0]

尽管可以在我的浏览器中进行操作，但不会造成任何麻烦。

Answer 1

以下内容在lxml.html （与现代Scrapy结合使用）中完美lxml.html ：

sel.xpath('.//div[@class="info_div"]//td[text()="Ref:"]/following-sibling::td[1]/text()')

请注意，我使用//来获得div和td之间的距离，而不是布置显式路径。 我必须仔细阅读文档才能理解原因，但是在该区域给出的路径是错误的。

Answer 2

不要通过查看Firebug或Chrome开发工具来创建XPath表达式，因为它们会更改标记。 删除/tbody轴步骤，您将准确找到所需的内容。

normalize-space(.//div[@class="info_div"]/table/tr/td[
  normalize-space(text())="Ref:"
]/following-sibling::td[1]/text())

阅读为什么我的XPath查询（抓取HTML表）只能在Firebug中工作，而不能在我正在开发的应用程序中工作？ 更多细节。

Answer 3

另一个具有相同功能的XPath： (.//td[@class='titles']/../td[2])[1]

我使用XPath Checker尝试了XPath，并且工作正常。

xpath在此网站上不起作用

问题描述

3 个解决方案

解决方案1
2 已采纳 2014-02-27 18:03:27

解决方案2
2 2014-02-27 23:03:44

解决方案3
0 2014-02-27 18:07:00

xpath在此网站上不起作用

问题描述

3 个解决方案

解决方案1 2 已采纳 2014-02-27 18:03:27

解决方案2 2 2014-02-27 23:03:44

解决方案3 0 2014-02-27 18:07:00

解决方案1
2 已采纳 2014-02-27 18:03:27

解决方案2
2 2014-02-27 23:03:44

解决方案3
0 2014-02-27 18:07:00