繁体   English   中英

防止机器人抓取我们的内容/使服务器超载

[英]Prevent bots from scraping our content / overloading our server

我们计划为某些公司提供工作平台服务。 我们已经有几千个工作可以提供给所有客人/访客。

从昨天开始,我们注意到服务器负载很疯狂,当我们检查日志时,发现每秒有来自不同IP地址的多个站点请求。 但是,页面被调用的顺序表明它是同一用户/机器人

我们希望对公众开放,但是如果僵尸程序正在极大地降低我们的服务器速度或迫使我们购买新硬件,那么我们就会遇到麻烦。

我们目前正在iframe中显示所有工作内容,例如编码器: http : //www.tareeinternet.com/scripts/iframe-encoder/

帮助解决我们的问题?

还是我们有什么选择? 这特别令人讨厌,因为我们没有用户会话或重复出现的IP地址(我认为他们使用的是定期切换的代理)

您是否检查了标头中的重复数据? 例如,如果他们有一个经常性的用户代理,则可以阻止这些用户:

  • 阿帕奇

 SetEnvIfNoCase User-Agent "^Wget" bad_bot SetEnvIfNoCase User-Agent "^EmailSiphon" bad_bot SetEnvIfNoCase User-Agent "^EmailWolf" bad_bot <Directory "/var/www"> Order Allow,Deny Allow from all Deny from env=bad_bot </Directory> 

  • 代码 :您可以检查每个针对特定标头的请求,然后将其重定向到其他地方。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM