繁体   English   中英

禁用爬网不需要的子域

[英]disable crawl unwanted subdomain

如何禁用和删除正在爬网并列出到alexa和其他爬网程序的subdomain.domain.com 特别是cpanel.domain.comwebmail.domain.com列在我的alexa信息页面中,很烦人:/。

本文摘自: https : //alexa.zendesk.com/hc/zh-cn/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers

Alexa Web爬网程序(机器人)在HTTP“用户代理”标头字段中将自己标识为“ ia_archiver”。 Alexa Internet ia_archiver搜寻器严格遵守robots.txt规则。

为防止ia_archiver访问您网站的任何部分,您的robots.txt文件应如下所示:

User-agent: ia_archiver
Disallow: /

您还可以限制对特定目录的爬网。 例如,为防止ia_archiver访问images目录(及其子目录):

User-agent: ia_archiver
Disallow: /images/

如果可以的话,您可以将robots.txt放在您不想爬网的子域的根目录中。 如果这些页面不在您的控制范围内; 托管服务应该/应该已经执行了这些或类似的限制。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM