簡體   English   中英

禁止Google使用robots.txt將包含“%2C”(逗號)的鏈接編入索引

[英]Disallow Google from indexing links containing “%2C” (comma) with robots.txt

任何人都可以幫我添加一個disallow規則到我的robots.txt文件,該文件將阻止抓取工具索引包含%2C鏈接, %2C是逗號(,)的HTML URL encoding

我想我正在尋找的是如果在robots.txt文件中存在一個外卡字符。

到目前為止我有這個:

Disallow: %2C

但似乎無法看到它的工作。

有什么建議么? 干杯

在針對搜索引擎測試robots.txt時,最好的方法是利用他們為您提供的工具。 Google網站站長工具在“運行狀況>阻止的網址”下有一個robots.txt測試工具 如果你使用

User-agent: *
Disallow: *,*

這將阻止對http://example.com/url%2Cpath/的任何請求。 我嘗試過Disallow: *%2C*但顯然這並不會阻止Googlebot抓取HTML轉義路徑。 我的猜測是Googlebot在排隊過程中對其進行編碼。

至於bing,他們顯然刪除了他們的robots.txt驗證工具。 因此,測試它的唯一可靠方法是在測試站點上部署robots.txt,並使用Bing網站管理員工具獲取帶有“,”的頁面。 它會在那時告訴你它是否被robots.txt阻止了。

請記住,在使用robots.txt時,這不會阻止搜索引擎在搜索結果中顯示網址。 它只是阻止他們抓取URL。 如果您只是不希望在搜索結果中使用這些類型的網址,但不介意他們抓取網頁(意味着您無法使用robots.txt屏蔽這些網址),則可以添加元標記或x-robots http標頭中的-tag,其值為NOINDEX,以防止將其添加到搜索結果中。

關於使用“nofollow”標准的其他評論之一。 Nofollow實際上並不阻止搜索引擎抓取這些網址。 它被認為是一種拒絕任何認可該目的地鏈接的方式。 Google和Bing建議使用nofollow來表示贊助商鏈接或不受信任的UGC鏈接。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM