Python請求，xpath下載全鏈接

Question

我正在嘗試抓取此頁面http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016

並有這個示例python代碼：

import requests
from lxml import html

r = requests.get("http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016")
data = html.fromstring(r.content)
print(data.xpath("//div[@class='subleg']/a/@href")[0])

這給了我這個輸出：

sublegview.xql?subleg=CAP。 16

但是當我在這個 xpath 上使用鼠標懸停時，有不同的鏈接，如下圖所示：

http://kenyalaw.org:8181/exist/kenyalex/sublegview.xql?subleg=CAP.%2016

在此處輸入圖片說明

Answer 1

我認為它只是表示您正在抓取的當前 URL 的分支，因此使用 Regex 刪除 URL 中最后一個/之后的所有內容並加入目標元素的 href （我認為這對您有意義）

import requests
import re
from lxml import html

url = "http://kenyalaw.org:8181/exist/kenyalex/actview.xql?actid=CAP.%2016"
r = requests.get(url)
data = html.fromstring(r.content)
print(''.join([re.sub(r'(?<=/)[^/]*$', '', url), data.xpath("//div[@class='subleg']/a/@href")[0]]).replace(' ', ''))

告訴我它是否不起作用...

Python請求，xpath下載全鏈接

問題描述

1 個解決方案

解決方案1
1 2021-10-21 09:41:44

Python請求，xpath下載全鏈接

問題描述

1 個解決方案

解決方案1 1 2021-10-21 09:41:44

解決方案1
1 2021-10-21 09:41:44