簡體   English   中英

如何使用apache Nutch 2.3每天從Web抓取100萬個文檔

[英]How to crawl 1 million documents daily from web using apache Nutch 2.3

我已經用hadoop 1.2.1和hbase 0.94.x配置了Apache Nuch 2.3。 我必須爬網幾個星期。 大約需要檢索100萬個文檔。 我有四個節點hadoop集群。 在進行此配置之前,我在單台計算機上設置了小程序,並抓取了一些文檔。 但是爬網率不超過50k到80k。 胡須的配置應該是什么,以便它可以每天抓取所需數量的文檔。

通常,您可以設置更大的TopN,也可以將nutch-site.xml中的<name>http.content.limit</name>更改為-1。

希望這可以幫助,

Le Quoc Do

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM