繁体   English   中英

如何防止滥用抓取工具抓取部署在Heroku上的rails应用程序?

[英]How to prevent abusive crawlers from crawling a rails app deployed on Heroku?

我想限制爬虫访问我在Heroku上运行的rails应用程序。 如果我使用Apache OR nginX,那将是一项直接的任务。 由于应用程序部署在Heroku上,我不确定如何限制HTTP服务器级别的访问。

我曾尝试使用robots.txt文件,但有问题的抓取工具不尊重robot.txt。

这些是我正在考虑的解决方案:

1)rails层中的before_filter限制访问。

2)基于机架的解决方案来限制访问

我想知道是否有更好的方法来解决这个问题。

我读过有关蜜罐解决方案的内容:您有一个不能被抓取的URI(将其放在robots.txt中)。 如果任何IP调用此URI,则阻止它。 我将它实现为Rack中间件,因此点击不会转到完整的Rails堆栈。

对不起,我用Google搜索,但找不到原始文章。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM