[英]How to limit non-google search engine bots crawl rate so they don't push me over an external API request limit?
我正在為客戶建立一個亞馬遜聯盟網站,該網站使用Amazon Product API從其目錄中獲取數據。
亞馬遜每秒有1個請求限制。
Google允許通過其網站管理員工具配置googlebot的抓取速度,因此它們沒有任何問題。
我需要有關如何處理其他搜索引擎抓取機器人的建議。 什么是避免因機器人爬行而超過亞馬遜API速率限制的好方法?
如果你想遵循PHP方法,請按照我的回答使用og metatag的php重定向網址(打開圖表)
我會使用robots.txt文件,因為它非常簡單並節省時間。 通常,所有機器人都尊重並遵守此文件中的規則。 使用以下規則創建名為robots.txt
(type:text / plain)的文件
User-agent: *
Disallow: /path/to/dir/
星號*
是表示每個用戶代理的通配符。
Disallow: /path/to/dir/
Disallow
規則定義了您希望機器人不要抓取的路徑。 您可以為不同的用戶代理使用多行。
User-agent: Googlebot
Disallow: /path1/
User-agent: Facebookhit
Disallow: /path2/
上面將允許訪問/path2/
到Googlebot
但不允許訪問Facebookhit
,反之亦然。 你可以在這里閱讀更多
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.