簡體 English 中英

如何處理大量的網頁抓取請求

[英]How to deal with massive web scraping requests

原文 2018-12-09 05:21:05 7 1 java/ web/ caching/ architecture/ web-crawler

當許多客戶抓取我們的網頁時，我們的服務器承受着巨大的壓力。 有時，我們的網頁是從許多不同的IP地址中抓取的，這些IP地址不屬於某些著名的蜘蛛，例如Google，Bing。 因此，我們基於IP地址的防御策略沒有用。 我們希望我們的某些網頁被普通蜘蛛以適當的頻率進行爬網，但是我們反對任何可能損壞服務器的人。 緩存可能是一種選擇。 但是我們有很多關於seo的網址。 例如，我們有一些URL的模式為“ https://www.xxxx.com/hot-goods/mobile-phone-1.html ”。 此頁面顯示有關手機的產品列表。 單個搜索詞的搜索結果有數千頁。 因此，緩存的命中率可能不是很高。 因此，我只是想知道是否還有其他解決方案可以減輕我們服務器的壓力。

1 個解決方案

除了擁有robots.txt文件（不道德的抓取工具可能會忽略它們）之外，您還可以提供sitemap.xml文件列出所有頁面。 抓取工具會代替這些工具而不是使用您網站的搜索功能，這樣可以減少工作量。 當URL僅在幾個參數中有所不同時，這也是一種避免對同一內容的多個請求的方法。

如果您無法避免使用它們，請簡化它們的工作，以免造成不必要的麻煩。

如何處理RESTful Web服務中的聚合和組合

[英]How to deal with aggregation and composition in RESTful web service

在這種情況下，我該如何進行網絡抓取？

[英]how can i do web scraping in this case?

如何使用 JSOUP 在 android 中抓取動態頁面

[英]how to Web Scraping a dynamic page in android with JSOUP

如何使用htmlunitsriver進行網頁抓取？

[英]How to do web scraping using htmlunitsriver?

如何使用 Jsoup 登錄網站進行網頁抓取

[英]How to login to a website with Jsoup for web scraping

網絡抓取：如何選擇代理

[英]Web-scraping: how to choose proxy

如何生成海量數據？

[英]How to produce massive amount of data?

使用 javascript 在頁面上抓取網頁

[英]web scraping on pages with javascripts

網絡收獲 - 抓取網址

[英]web harvest - scraping an url

如何將 Selendroid 添加到 android studio 以進行網頁抓取？

[英]How do I add Selendroid to android studio for web scraping?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何處理RESTful Web服務中的聚合和組合在這種情況下，我該如何進行網絡抓取？如何使用 JSOUP 在 android 中抓取動態頁面如何使用htmlunitsriver進行網頁抓取？如何使用 Jsoup 登錄網站進行網頁抓取網絡抓取：如何選擇代理如何生成海量數據？使用 javascript 在頁面上抓取網頁網絡收獲 - 抓取網址如何將 Selendroid 添加到 android studio 以進行網頁抓取？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM