簡體   English   中英

如何限制非谷歌搜索引擎機器人抓取率,以便他們不會超過外部API請求限制?

[英]How to limit non-google search engine bots crawl rate so they don't push me over an external API request limit?

我正在為客戶建立一個亞馬遜聯盟網站,該網站使用Amazon Product API從其目錄中獲取數據。

亞馬遜每秒有1個請求限制。

Google允許通過其網站管理員工具配置googlebot的抓取速度,因此它們沒有任何問題。

我需要有關如何處理其他搜索引擎抓取機器人的建議。 什么是避免因機器人爬行而超過亞馬遜API速率限制的好方法?

PHP

如果你想遵循PHP方法,請按照我的回答使用og metatag的php重定向網址(打開圖表)

的robots.txt

我會使用robots.txt文件,因為它非常簡單並節省時間。 通常,所有機器人都尊重並遵守此文件中的規則。 使用以下規則創建名為robots.txt (type:text / plain)的文件

User-agent: * 
Disallow: /path/to/dir/

星號*是表示每個用戶代理的通配符。

Disallow: /path/to/dir/

Disallow規則定義了您希望機器人不要抓取的路徑。 您可以為不同的用戶代理使用多行。

User-agent: Googlebot
Disallow: /path1/

User-agent: Facebookhit
Disallow: /path2/

上面將允許訪問/path2/Googlebot但不允許訪問Facebookhit ,反之亦然。 你可以在這里閱讀更多

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM