[英]Can I block search crawlers for every site on an Apache web server?
[英]How can I block mp3 crawlers from my website under Apache?
有没有办法阻止使用.htaccess文件或类似文件从引用者访问? 我的带宽被http://www.dizzler.com推荐的人吃掉了。这是一个基于Flash的网站,允许你浏览一个已爬行的公共mp3的库。
编辑: Dizzler仍然进入(可能在所有情况下都没有指示引用者)所以我将所有的mp3移动到新文件夹,禁用目录浏览,并创建了一个robots.txt文件(希望)不会被索引再次。 接受的答案改为反映我之前尝试的徒劳:P
这就像是说你想阻止垃圾邮件机器人在公开可见的页面上收集电子邮件 - 很难说出用户和机器人之间的区别而不强迫观众登录以确认他们的身份。
您可以使用robots.txt来禁止实际遵循这些规则的蜘蛛,但这是他们的一方,而不是您的服务器。 有一个页面解释了如何捕获那些违反规则并明确禁止它们的页面: 使用Apache来阻止坏机器人 [evolt.org]
如果你想要一个简单的方法来停止使用.htaccess的dizzler,你应该能够打开它并添加:
<Directory /directoryName/subDirectory>
Order Allow,Deny
Allow from all
Deny from 66.232.150.219
</Directory>
从这个站点 :(把它放在你的.htaccess文件中)
RewriteEngine on
RewriteCond %{HTTP_REFERER} ^http://((www\.)?dizzler\.com [NC]
RewriteRule .* - [F]
你可以用类似的东西
SetEnvIfNoCase Referer dizzler.com spammer=yes
Order allow,deny
allow from all
deny from env=spammer
资料来源: http : //codex.wordpress.org/Combating_Comment_Spam/Denying_Access
这不是一个非常优雅的解决方案,但您可以阻止该网站的抓取机器人,然后重命名您的mp3文件以打破网站上已有的链接。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.