[英]Java web-scraper sees captcha
我已经使用JSoup为Java的Google Scholar创建了一个网络刮板。 刮板搜索Scholar寻找DOI,然后找到本文的引文。 研究需要这些数据。
但是,刮板仅适用于第一个请求。 ..之后,刮板在Scholar网站上遇到了一个验证码。
但是,当我在浏览器(Chrome)中打开网站时,Google Scholar将正常打开。
这怎么可能? 所有请求都来自相同的IP地址! 到目前为止,我已经尝试了以下选项:
当我分析Chrome对Scholar的请求时,我发现Cookie与某些会话ID一起使用。 也许这就是为什么Chrome请求未被阻止的原因。 是否可以将此Cookie用于通过JSoup发出的请求?
谢谢!
我想到了三件事:
我认为第一个是最可能的选择。 您应该尝试将Chrome在请求中看到的许多标题复制到Java代码中。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.