如何限制非谷歌搜索引擎機器人抓取率，以便他們不會超過外部API請求限制？

Question

我正在為客戶建立一個亞馬遜聯盟網站，該網站使用Amazon Product API從其目錄中獲取數據。

亞馬遜每秒有1個請求限制。

Google允許通過其網站管理員工具配置googlebot的抓取速度，因此它們沒有任何問題。

我需要有關如何處理其他搜索引擎抓取機器人的建議。 什么是避免因機器人爬行而超過亞馬遜API速率限制的好方法？

Answer 1

我會使用robots.txt文件，因為它非常簡單並節省時間。 通常，所有機器人都尊重並遵守此文件中的規則。 使用以下規則創建名為robots.txt （type：text / plain）的文件

User-agent: * 
Disallow: /path/to/dir/

星號*是表示每個用戶代理的通配符。

Disallow: /path/to/dir/

Disallow規則定義了您希望機器人不要抓取的路徑。 您可以為不同的用戶代理使用多行。

User-agent: Googlebot
Disallow: /path1/

User-agent: Facebookhit
Disallow: /path2/

上面將允許訪問/path2/到Googlebot但不允許訪問Facebookhit ，反之亦然。 你可以在這里閱讀更多