[英]Give comparision of Nutch Vs Heritrix
我想选择以上一种方法来为特定网站构建爬网框架。 这不是整个Internet的爬网。 我不是在建立搜索索引,而是有兴趣从网站上抓取特定页面。
有人可以详细说明上述优点和缺点吗? 谢谢内恩
您的主要任务是从网站上抓取特定页面。
Nutch :基于Lucene Java构建的开源Web搜索软件
Heritrix :Internet档案馆的开源,可扩展,网络规模,档案质量的网络爬虫项目
因此,我认为Heritrix在您的项目上比Nutch更好。
学习框架/库是有价值的练习。 但是需要一些时间。 由于您的任务不是很复杂,因此有时候用Java从头开始编写一个简单的搜寻器会比较省事
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.