繁体   English   中英

如何处理大量的网页抓取请求

[英]How to deal with massive web scraping requests

当许多客户抓取我们的网页时,我们的服务器承受着巨大的压力。 有时,我们的网页是从许多不同的IP地址中抓取的,这些IP地址不属于某些著名的蜘蛛,例如Google,Bing。 因此,我们基于IP地址的防御策略没有用。 我们希望我们的某些网页被普通蜘蛛以适当的频率进行爬网,但是我们反对任何可能损坏服务器的人。 缓存可能是一种选择。 但是我们有很多关于seo的网址。 例如,我们有一些URL的模式为“ https://www.xxxx.com/hot-goods/mobile-phone-1.html ”。 此页面显示有关手机的产品列表。 单个搜索词的搜索结果有数千页。 因此,缓存的命中率可能不是很高。 因此,我只是想知道是否还有其他解决方案可以减轻我们服务器的压力。

除了拥有robots.txt文件(不道德的抓取工具可能会忽略它们)之外,您还可以提供sitemap.xml文件列出所有页面。 抓取工具会代替这些工具而不是使用您网站的搜索功能,这样可以减少工作量。 当URL仅在几个参数中有所不同时,这也是一种避免对同一内容的多个请求的方法。

如果您无法避免使用它们,请简化它们的工作,以免造成不必要的麻烦。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM