簡體   English   中英

使用 lxml.html 抓取 Scopus

[英]Webscraping Scopus with lxml.html

我正在嘗試使用 lxml.html 對 Scopus 進行網絡抓取(最終創建文檔標題列表),但似乎沒有從 page.content 存儲數據; 結果列表(tr_elements)最終為空。

import requests
import lxml.html as lh

url = 'https://www.scopus.com/results/citedbyresults.uri?sort=plf-f&cite=2-s2.0-84939544008&src=s&nlo=&nlr=&nls=&imp=t&sid=fdbfeac69ab848bdff16425dc6937ffc&sot=cite&sdt=a&sl=0&origin=resultslist&offset=1&txGid=b63ddae0b71deb5a4615640f49db9904'
page = requests.get(url)
doc = lh.fromstring(page.content)
tr_elements = doc.xpath('//tr')

由於檢查元素顯示行具有不同的類( https://i.stack.imgur.com/6QUvw.png )我也嘗試使用tr_elements = doc.xpath("//tr[contains(@class, 'searchArea')]")指定要解析的行,但這也以空列表結束。 有任何想法嗎?

我想到了。 訪問被拒絕 | www.scopus.com使用 Cloudflare 限制訪問

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM