簡體   English   中英

禁用爬網不需要的子域

[英]disable crawl unwanted subdomain

如何禁用和刪除正在爬網並列出到alexa和其他爬網程序的subdomain.domain.com 特別是cpanel.domain.comwebmail.domain.com列在我的alexa信息頁面中,很煩人:/。

本文摘自: https : //alexa.zendesk.com/hc/zh-cn/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers

Alexa Web爬網程序(機器人)在HTTP“用戶代理”標頭字段中將自己標識為“ ia_archiver”。 Alexa Internet ia_archiver搜尋器嚴格遵守robots.txt規則。

為防止ia_archiver訪問您網站的任何部分,您的robots.txt文件應如下所示:

User-agent: ia_archiver
Disallow: /

您還可以限制對特定目錄的爬網。 例如,為防止ia_archiver訪問images目錄(及其子目錄):

User-agent: ia_archiver
Disallow: /images/

如果可以的話,您可以將robots.txt放在您不想爬網的子域的根目錄中。 如果這些頁面不在您的控制范圍內; 托管服務應該/應該已經執行了這些或類似的限制。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM