繁体   English   中英

比较Nutch与Heritrix

[英]Give comparision of Nutch Vs Heritrix

我想选择以上一种方法来为特定网站构建爬网框架。 这不是整个Internet的爬网。 我不是在建立搜索索引,而是有兴趣从网站上抓取特定页面。

有人可以详细说明上述优点和缺点吗? 谢谢内恩

您的主要任务是从网站上抓取特定页面。

Nutch :基于Lucene Java构建的开源Web搜索软件

Heritrix :Internet档案馆的开源,可扩展,网络规模,档案质量的网络爬虫项目

因此,我认为Heritrix在您的项目上比Nutch更好。

学习框架/库是有价值的练习。 但是需要一些时间。 由于您的任务不是很复杂,因此有时候用Java从头开始编写一个简单的搜寻器会比较省事

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM