繁体 English 中英

Java网络爬虫看到验证码

[英]Java web-scraper sees captcha

原文 2013-05-22 07:47:18 6 1 java/ web-scraping/ jsoup/ google-scholar

我已经使用JSoup为Java的Google Scholar创建了一个网络刮板。 刮板搜索Scholar寻找DOI，然后找到本文的引文。 研究需要这些数据。

但是，刮板仅适用于第一个请求。 ..之后，刮板在Scholar网站上遇到了一个验证码。

但是，当我在浏览器（Chrome）中打开网站时，Google Scholar将正常打开。

这怎么可能？ 所有请求都来自相同的IP地址！ 到目前为止，我已经尝试了以下选项：

为请求选择一个随机用户代理（从5个用户代理的列表中）
请求之间的随机延迟介于5到50秒之间
使用TOR代理。 但是，几乎所有终端节点都已被Google阻止

当我分析Chrome对Scholar的请求时，我发现Cookie与某些会话ID一起使用。 也许这就是为什么Chrome请求未被阻止的原因。 是否可以将此Cookie用于通过JSoup发出的请求？

谢谢！

1 个解决方案

我想到了三件事：

您不是在请求之间保存cookie。 您的第一个请求应保存cookie并将其传递给服务器以用于下一个请求（设置Referer标头也不会受到伤害）。 这里有一个例子在这里。
如果Google棘手，他们会看到您的第一个请求没有在页面上加载任何css / js / images。 这肯定表明您是机器人。
载入Javascript后，它就会在页面中执行某些操作。

我认为第一个是最可能的选择。 您应该尝试将Chrome在请求中看到的许多标题复制到Java代码中。

在Google App Engine：Java上运行Jaunt（网络抓取工具）

[英]Running Jaunt (web-scraper) on Google App Engine: Java

Java web scraper

[英]Java web scraper

Java Web 爬虫和爬虫

[英]Java Web crawler and scraper

Java - 网络爬虫问题

[英]Java - Web Scraper Issue

提高刮板效率

[英]Increase web scraper efficiency

JSoup 在网页上看不到表格

[英]JSoup not sees table on web page

网络抓取工具未创建 CSV 文件

[英]Web scraper not creating CSV file

运行Web抓取程序时出现“线程“ main”中的异常“ java.lang.NullPointerException”错误

[英]“Exception in thread ”main“ java.lang.NullPointerException” error when running web scraper program

Java 多线程网络爬虫，每秒连续提取数据，同时允许消费者检索数据

[英]Java Multithreading web scraper that extracts data continuously at every second while allowing consumer to retrieve data

用 Selenium 和 2Captcha (JAVA) 解决图片验证码

[英]Solving Picture Captcha With Selenium and 2Captcha (JAVA)

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在Google App Engine：Java上运行Jaunt（网络抓取工具） Java web scraper Java Web 爬虫和爬虫 Java - 网络爬虫问题提高刮板效率 JSoup 在网页上看不到表格网络抓取工具未创建 CSV 文件运行Web抓取程序时出现“线程“ main”中的异常“ java.lang.NullPointerException”错误 Java 多线程网络爬虫，每秒连续提取数据，同时允许消费者检索数据用 Selenium 和 2Captcha (JAVA) 解决图片验证码

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM