簡體 English 中英

curl - 從網站上抓取大量內容

[英]curl - Scraping large amounts of content from a website

原文 2013-03-08 21:47:57 5 2 php/ curl

我很好奇是否有人對利用 PHP/CURL（甚至其他技術）從網站下載內容的最佳方法有任何建議。 現在我正在使用 curl_multi 一次執行 10 個請求，這對一些人有幫助。

我確實每天需要請求大約 10 萬頁，這可能會有點乏味（現在需要 16 小時）。 我最初的想法只是設置多個虛擬機並拆分任務，但想知道除了並行化之外我是否還缺少其他東西。 （我知道你總是可以在問題上扔更多的機器呵呵）

提前致謝！

2 個解決方案

這取決於您對內容的處理方式，但請嘗試使用排隊系統。

我建議Resque 。 它使用Redis來處理隊列。 它旨在同時提高速度和多個請求。 它還有一個resque-web選項，可以提供一個很好的托管 UI。

您可以使用一台機器來排隊新的 URL，然后您可以讓一台或多台機器處理隊列。

其他選項： Kestrel 、 RabbitMQ 、 Beanstalkd

要檢索 Web 內容，您可以使用 curl 或 fsockopen。 兩種方法之間的比較可以在 fsockopen 和 curl 之間哪個更好的方法中看到？ .

從第三方網站檢索和刮取大量數據

[英]Retrieving and scraping large amounts of data from third party websites

PHP + cURL-使用REACT使用用戶個人資料從網站中收集數據

[英]PHP + cURL - Scraping data from a website with user profile using REACT

使用curl來抓取大頁面

[英]Using curl for scraping large pages

php curl從網站獲取內容不起作用

[英]php curl fetch content from website is not working

PHP cURL網站抓取無效

[英]PHP cURL Website scraping not working

從其他網站抓取數據時，在 for 循環中匯總大量數據

[英]Sum large numbers in for loop while scraping data from other website

使用PHP + MySQL緩存大量內容

[英]Caching large amounts of content with PHP + MySQL

如何使用curl解析從網站接收的網站內容

[英]How to parse website content received from a website with curl

使用cURL請求抓取網站未讀取HTML代碼

[英]Scraping a website with cURL request not reading the HTML code

curl 抓取單個網站兩層深

[英]curl scraping a single website two levels deep

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從第三方網站檢索和刮取大量數據 PHP + cURL-使用REACT使用用戶個人資料從網站中收集數據使用curl來抓取大頁面 php curl從網站獲取內容不起作用 PHP cURL網站抓取無效從其他網站抓取數據時，在 for 循環中匯總大量數據使用PHP + MySQL緩存大量內容如何使用curl解析從網站接收的網站內容使用cURL請求抓取網站未讀取HTML代碼 curl 抓取單個網站兩層深

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM