繁体 English 中英

如何处理大量的网页抓取请求

[英]How to deal with massive web scraping requests

原文 2018-12-09 05:21:05 7 1 java/ web/ caching/ architecture/ web-crawler

当许多客户抓取我们的网页时，我们的服务器承受着巨大的压力。 有时，我们的网页是从许多不同的IP地址中抓取的，这些IP地址不属于某些著名的蜘蛛，例如Google，Bing。 因此，我们基于IP地址的防御策略没有用。 我们希望我们的某些网页被普通蜘蛛以适当的频率进行爬网，但是我们反对任何可能损坏服务器的人。 缓存可能是一种选择。 但是我们有很多关于seo的网址。 例如，我们有一些URL的模式为“ https://www.xxxx.com/hot-goods/mobile-phone-1.html ”。 此页面显示有关手机的产品列表。 单个搜索词的搜索结果有数千页。 因此，缓存的命中率可能不是很高。 因此，我只是想知道是否还有其他解决方案可以减轻我们服务器的压力。

1 个解决方案

除了拥有robots.txt文件（不道德的抓取工具可能会忽略它们）之外，您还可以提供sitemap.xml文件列出所有页面。 抓取工具会代替这些工具而不是使用您网站的搜索功能，这样可以减少工作量。 当URL仅在几个参数中有所不同时，这也是一种避免对同一内容的多个请求的方法。

如果您无法避免使用它们，请简化它们的工作，以免造成不必要的麻烦。

如何处理RESTful Web服务中的聚合和组合

[英]How to deal with aggregation and composition in RESTful web service

在这种情况下，我该如何进行网络抓取？

[英]how can i do web scraping in this case?

如何使用 JSOUP 在 android 中抓取动态页面

[英]how to Web Scraping a dynamic page in android with JSOUP

如何使用htmlunitsriver进行网页抓取？

[英]How to do web scraping using htmlunitsriver?

如何使用 Jsoup 登录网站进行网页抓取

[英]How to login to a website with Jsoup for web scraping

网络抓取：如何选择代理

[英]Web-scraping: how to choose proxy

如何生成海量数据？

[英]How to produce massive amount of data?

使用 javascript 在页面上抓取网页

[英]web scraping on pages with javascripts

网络收获 - 抓取网址

[英]web harvest - scraping an url

如何将 Selendroid 添加到 android studio 以进行网页抓取？

[英]How do I add Selendroid to android studio for web scraping?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何处理RESTful Web服务中的聚合和组合在这种情况下，我该如何进行网络抓取？如何使用 JSOUP 在 android 中抓取动态页面如何使用htmlunitsriver进行网页抓取？如何使用 Jsoup 登录网站进行网页抓取网络抓取：如何选择代理如何生成海量数据？使用 javascript 在页面上抓取网页网络收获 - 抓取网址如何将 Selendroid 添加到 android studio 以进行网页抓取？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM