簡體   English   中英

通過htaccess從子域阻止抓取工具

[英]Block crawlers from subdomain via htaccess

我們公司的臨時開發網址已被搜索引擎索引。 我們需要通過全局htaccess文件停止該操作。 就全球而言,我的意思是我想將此訪問權限放到我們的根目錄中,該根目錄將對每個站點應用規則。 每次我們建立一個新站點時,我都不想在該文件夾中放置htaccess文件。

我在編寫htaccess規則時很糟糕,否則我自己會做的。 我希望社會各界提供寶貴意見。

這是一個示例臨時網址:1245.temp.oursite.com

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp
RewriteRule ^.*$ "http\:\/\/oursite\.com" [R=301,L]

我已經嘗試過使用它,但是就像我上面說的那樣,我在編寫htaccess規則時很糟糕。

編輯問題與類似,但是我的問題涉及子域。

如果您不希望搜索引擎將網站編入索引,請向這些子域添加robots.txt文件。 它應包含:

User-agent: *
Disallow: /

所有主要的搜索引擎都遵守Web機器人標准。

如果您只是想要一個通用文件來阻止機器人,則可以使用類似這樣的東西。 這不是特定於域的。

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(AltaVista|Googlebot|msnbot|Slurp).*$ [NC]
RewriteRule .* - [F,L]

編輯:如果您可以從主根.htaccess文件訪問子域,則可以使用這種方法,並且任何臨時域都應阻止訪問。

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*(AltaVista|Googlebot|msnbot|Slurp).*$ [NC]
RewriteCond %{HTTP_HOST} ^([0-9]+)\.temp\.oursite\.com$ [NC]
RewriteRule .* - [F,L]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM