簡體 English 中英

添加更多 hadoop 節點不會提高 Nutch 爬網速度

[英]Add more hadoop nodes does not improve Nutch Crawling speed

原文 2021-06-28 01:23:05 7 1 hadoop/ mapreduce/ nutch

我正在使用 Apache Nutch（1.18 版本）抓取網頁。

我認為添加更多的 hadoop 節點會使 Nutch 抓取網頁的速度更快。

然而，它沒有。 爬3個datanode和5個datanode幾乎沒有區別。

我也添加了 --num-fetchers 參數（值是 5，因為我的 hadoop datanodes 的數量是 5）。

請幫我找出問題所在。

1 個解決方案

只有覆蓋許多網站（主機/域）的廣泛網絡爬蟲才能從添加更多 Hadoop 節點中受益。 如果只抓取少量站點，並行化不會使 Nutch 更快。 Nutch 配置為默認行為禮貌，不會並行訪問單個站點，並且還在從同一站點連續獲取之間等待。

但是有一些方法可以讓 Nutch 更快地抓取單個站點。

為了使單個 fetcher 任務更快（並且更積極地從單個主機（或域，取決於partition.url.mode的值）獲取），需要調整以下配置屬性： fetcher.server.delay , fetcher.threads.per.queue和其他fetcher.threads.per.queue屬性。
為了讓更多的 fetcher 任務（Hadoop 節點）並行抓取同一個網站，需要修改URLPartitioner 的 getPartition 方法，參見這個討論。

請注意，未經同意使 Nutch 更具攻擊性可能會導致被抓取網站的管理員投訴，並增加被阻止的可能性！

Apache Nutz不再爬網

[英]Apache nutch is not crawling any more

胡鬧哈杜普只有一個奴隸正在爬行

[英]nutch hadoop only one slave is crawling

為什么Nutch只在一個Hadoop節點上運行fetch步驟，當集群總共有5個節點時？

[英]Why does Nutch only run the fetch step on one Hadoop node, when the cluster has 5 nodes total?

Hadoop上的Nutch | 輸入路徑不存在：

[英]Nutch on Hadoop | Input path does not exist:

Nutch如何與Hadoop集群合作？

[英]How does Nutch work with Hadoop cluster?

用Apache Nuch爬行視頻

[英]Crawling video with apache nutch

無法開始Nutch爬行

[英]Cannot start Nutch crawling

Hadoop集群：更大的節點或更多的節點

[英]Hadoop cluster: bigger nodes or more nodes

在Apache Nutch中爬行時出錯

[英]Error while crawling in Apache Nutch

nutch2.0 hadoop輸入路徑不存在

[英]nutch2.0 hadoop Input path does not exist

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Apache Nutz不再爬網胡鬧哈杜普只有一個奴隸正在爬行為什么Nutch只在一個Hadoop節點上運行fetch步驟，當集群總共有5個節點時？ Hadoop上的Nutch | 輸入路徑不存在： Nutch如何與Hadoop集群合作？用Apache Nuch爬行視頻無法開始Nutch爬行 Hadoop集群：更大的節點或更多的節點在Apache Nutch中爬行時出錯 nutch2.0 hadoop輸入路徑不存在

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM