xpath在此網站上不起作用

Question

我正在從justproperty.com抓取單個列表頁面（原始問題中的單個列表不再有效）。

我想獲得Ref的價值

這是我的xpath：

>>> sel.xpath('normalize-space(.//div[@class="info_div"]/table/tbody/tr/td[norma
lize-space(text())="Ref:"]/following-sibling::td[1]/text())').extract()[0]

盡管可以在我的瀏覽器中進行操作，但不會造成任何麻煩。

Answer 1

以下內容在lxml.html （與現代Scrapy結合使用）中完美lxml.html ：

sel.xpath('.//div[@class="info_div"]//td[text()="Ref:"]/following-sibling::td[1]/text()')

請注意，我使用//來獲得div和td之間的距離，而不是布置顯式路徑。 我必須仔細閱讀文檔才能理解原因，但是在該區域給出的路徑是錯誤的。

Answer 2

不要通過查看Firebug或Chrome開發工具來創建XPath表達式，因為它們會更改標記。 刪除/tbody軸步驟，您將准確找到所需的內容。

normalize-space(.//div[@class="info_div"]/table/tr/td[
  normalize-space(text())="Ref:"
]/following-sibling::td[1]/text())

閱讀為什么我的XPath查詢（抓取HTML表）只能在Firebug中工作，而不能在我正在開發的應用程序中工作？ 更多細節。

Answer 3

另一個具有相同功能的XPath： (.//td[@class='titles']/../td[2])[1]

我使用XPath Checker嘗試了XPath，並且工作正常。

xpath在此網站上不起作用

問題描述

3 個解決方案

解決方案1
2 已采納 2014-02-27 18:03:27

解決方案2
2 2014-02-27 23:03:44

解決方案3
0 2014-02-27 18:07:00

xpath在此網站上不起作用

問題描述

3 個解決方案

解決方案1 2 已采納 2014-02-27 18:03:27

解決方案2 2 2014-02-27 23:03:44

解決方案3 0 2014-02-27 18:07:00

解決方案1
2 已采納 2014-02-27 18:03:27

解決方案2
2 2014-02-27 23:03:44

解決方案3
0 2014-02-27 18:07:00