繁体   English   中英

如何抓取受封装保护的网站?

[英]How to scrape incapsula protected website?

https://www.genecards.org/cgi-bin/carddisp.pl?gene=ZSCAN22

在上面的网页上,如果我点击See all 33 ,我会看到在 Chrome DevTools 中发送了以下 GET 请求。

https://www.genecards.org/gene/api/data/Enhancers?geneSymbol=ZSCAN22

直接访问它被阻止。

我尝试使用木偶。 我可以使用 puppeteer 单击“查看全部 33 个”,但随后我需要解析生成的 HTML 文件。 最好直接从https://www.genecards.org/gene/api/data/Enhancers?geneSymbol=ZSCAN22获取结果。 使用 puppeteer 单击“查看全部 33 个”后,我不确定如何获取它。

我不确定 apify 是否可以提供帮助。

谁能告诉我怎么刮?

我用 selenium 它工作正常

from selenium import webdriver
browser = webdriver.Chrome(executable_path="C:/src/webdriver/chromedriver.exe")
genesLocations = 'https://www.genecards.org/cgi-bin/carddisp.pl?gene={}'

提取基因组位置

gene='ZSCAN22'
browser.get(genesLocations.format(gene))
location = browser.find_element_by_xpath('//*[@id="genomic_location"]/div/div[3]/div/div')
print(location.text)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM