簡體   English   中英

添加更多 hadoop 節點不會提高 Nutch 爬網速度

[英]Add more hadoop nodes does not improve Nutch Crawling speed

我正在使用 Apache Nutch(1.18 版本)抓取網頁。

我認為添加更多的 hadoop 節點會使 Nutch 抓取網頁的速度更快。

然而,它沒有。 爬3個datanode和5個datanode幾乎沒有區別。

我也添加了 --num-fetchers 參數(值是 5,因為我的 hadoop datanodes 的數量是 5)。

請幫我找出問題所在。

只有覆蓋許多網站(主機/域)的廣泛網絡爬蟲才能從添加更多 Hadoop 節點中受益。 如果只抓取少量站點,並行化不會使 Nutch 更快。 Nutch 配置為默認行為禮貌,不會並行訪問單個站點,並且還在從同一站點連續獲取之間等待。

但是有一些方法可以讓 Nutch 更快地抓取單個站點。

  1. 為了使單個 fetcher 任務更快(並且更積極地從單個主機(或域,取決於partition.url.mode的值)獲取),需要調整以下配置屬性: fetcher.server.delay , fetcher.threads.per.queue和其他fetcher.threads.per.queue屬性。

  2. 為了讓更多的 fetcher 任務(Hadoop 節點)並行抓取同一個網站,需要修改URLPartitioner 的 getPartition 方法,參見這個討論

請注意,未經同意使 Nutch 更具攻擊性可能會導致被抓取網站的管理員投訴,並增加被阻止的可能性!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM