簡體   English   中英

瀏覽URL文件並總結其大小的最快方法是什么?

[英]What is the fastest way to go through a file of URLs and sum up their size?

我有一個包含大約200,000個文檔URL的文件。 我想總結這些網址的大小。 我已經使用HttpURLConnection用java寫了一些東西,但是運行起來需要很長時間,這當然是可以理解的-它為每個連接都打開了一個http連接。

有更快的方法嗎? 也許用其他語言進行的同一件事會花費更少的時間(如果在Java中處理單個http連接要比在另一種語言中花費更長的時間,那么對於我的連接量而言,它是值得注意的)? 還是另一種方法?

更改語言在這里沒有什么不同,這是因為打開200,000個HTTP連接(無論您怎么看)都需要很長時間!

您可以使用線程池並發執行任務,這可能會大大加快速度,但是這樣的事情永遠不會在一兩秒鍾內運行。

您還應該使用HEAD HTTP請求僅檢索Content-Length,而不要檢索內容,以加快處理速度。 同樣,使用線程也可以加快處理速度,特別是當一個請求未將行裝載太多時,情況可能並非如此。 您擁有的最后一個也是最有效的選擇是在服務器附近物理上執行該過程,例如,在同一子網中。

似乎您以錯誤的方式來解決問題。 您的瓶頸不是計算URL的大小,而是有效地訪問它們以確定每個文件的大小。 幸運的是,有一些Web服務可以幫助您克服這一瓶頸,也許可以嘗試使用80條腿之類的服務來運行廉價的Web搜尋器,然后對結果集進行分析...

http://80legs.com/services.html

另外,僅需澄清一下-您希望了解URL描述的文件大小...而不是實際的URL本身,對不對?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM