簡體   English   中英

如何處理大量的網頁抓取請求

[英]How to deal with massive web scraping requests

當許多客戶抓取我們的網頁時,我們的服務器承受着巨大的壓力。 有時,我們的網頁是從許多不同的IP地址中抓取的,這些IP地址不屬於某些著名的蜘蛛,例如Google,Bing。 因此,我們基於IP地址的防御策略沒有用。 我們希望我們的某些網頁被普通蜘蛛以適當的頻率進行爬網,但是我們反對任何可能損壞服務器的人。 緩存可能是一種選擇。 但是我們有很多關於seo的網址。 例如,我們有一些URL的模式為“ https://www.xxxx.com/hot-goods/mobile-phone-1.html ”。 此頁面顯示有關手機的產品列表。 單個搜索詞的搜索結果有數千頁。 因此,緩存的命中率可能不是很高。 因此,我只是想知道是否還有其他解決方案可以減輕我們服務器的壓力。

除了擁有robots.txt文件(不道德的抓取工具可能會忽略它們)之外,您還可以提供sitemap.xml文件列出所有頁面。 抓取工具會代替這些工具而不是使用您網站的搜索功能,這樣可以減少工作量。 當URL僅在幾個參數中有所不同時,這也是一種避免對同一內容的多個請求的方法。

如果您無法避免使用它們,請簡化它們的工作,以免造成不必要的麻煩。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM