簡體   English   中英

Python請求,xpath下載全鏈接

[英]Python requests, xpath download whole link

我正在嘗試抓取此頁面http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016

並有這個示例python代碼:

import requests
from lxml import html

r = requests.get("http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016")
data = html.fromstring(r.content)
print(data.xpath("//div[@class='subleg']/a/@href")[0])

這給了我這個輸出:

sublegview.xql?subleg=CAP。 16

但是當我在這個 xpath 上使用鼠標懸停時,有不同的鏈接,如下圖所示:

http://kenyalaw.org:8181/exist/kenyalex/sublegview.xql?subleg=CAP.%2016

在此處輸入圖片說明

我認為它只是表示您正在抓取的當前 URL 的分支,因此使用 Regex 刪除 URL 中最后一個/之后的所有內容並加入目標元素的 href (我認為這對您有意義)

import requests
import re
from lxml import html

url = "http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016"
r = requests.get(url)
data = html.fromstring(r.content)
print(''.join([re.sub(r'(?<=/)[^/]*$', '', url), data.xpath("//div[@class='subleg']/a/@href")[0]]).replace(' ', ''))

告訴我它是否不起作用...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM