[英]How to navigate with URLConnection?
我的應用程序需要一些Web抓取功能。 我有下載所有數據的URL對象。 但是我需要抓取許多頁面,並且創建許多URL對象,因此我打開了許多連接。 如何優化它,這樣我就可以建立一個連接,並且只能用它導航到其他頁面?
干杯
據我所知,每個URL必須具有不同的URLConnection
(這很有意義,因為基礎網絡連接也必須更改)。 我嚴重懷疑創建此對象是您的瓶頸; 我懷疑這是網絡時間,但是沒有配置文件,很難確定。
對於中等數量的頁面,我將考慮一個工作隊列(例如使用ExecutorService
)。 對於大量頁面,我什至可以查看Java版本的Map / Reduce 。
編輯:為了使Map / Reduce比簡單的工作隊列更好,您需要多台計算機來進行抓取。
您可以使用Apache HTTP組件 ,它具有很多功能,包括支持並發訪問的連接管理器
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.