[英]Python requests, xpath download whole link
我正在嘗試抓取此頁面http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016
並有這個示例python代碼:
import requests
from lxml import html
r = requests.get("http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016")
data = html.fromstring(r.content)
print(data.xpath("//div[@class='subleg']/a/@href")[0])
這給了我這個輸出:
sublegview.xql?subleg=CAP。 16
但是當我在這個 xpath 上使用鼠標懸停時,有不同的鏈接,如下圖所示:
http://kenyalaw.org:8181/exist/kenyalex/sublegview.xql?subleg=CAP.%2016
我認為它只是表示您正在抓取的當前 URL 的分支,因此使用 Regex 刪除 URL 中最后一個/
之后的所有內容並加入目標元素的 href (我認為這對您有意義)
import requests
import re
from lxml import html
url = "http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016"
r = requests.get(url)
data = html.fromstring(r.content)
print(''.join([re.sub(r'(?<=/)[^/]*$', '', url), data.xpath("//div[@class='subleg']/a/@href")[0]]).replace(' ', ''))
告訴我它是否不起作用...
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.