簡體   English   中英

curl - 從網站上抓取大量內容

[英]curl - Scraping large amounts of content from a website

我很好奇是否有人對利用 PHP/CURL(甚至其他技術)從網站下載內容的最佳方法有任何建議。 現在我正在使用 curl_multi 一次執行 10 個請求,這對一些人有幫助。

我確實每天需要請求大約 10 萬頁,這可能會有點乏味(現在需要 16 小時)。 我最初的想法只是設置多個虛擬機並拆分任務,但想知道除了並行化之外我是否還缺少其他東西。 (我知道你總是可以在問題上扔更多的機器呵呵)

提前致謝!

這取決於您對內容的處理方式,但請嘗試使用排隊系統。

我建議Resque 它使用Redis來處理隊列。 它旨在同時提高速度和多個請求。 它還有一個resque-web選項,可以提供一個很好的托管 UI。

您可以使用一台機器來排隊新的 URL,然后您可以讓一台或多台機器處理隊列。

其他選項: KestrelRabbitMQBeanstalkd

要檢索 Web 內容,您可以使用 curl 或 fsockopen。 兩種方法之間的比較可以在 fsockopen 和 curl 之間哪個更好的方法中看到 .

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM