繁体   English   中英

如何阅读Nutch索引的内容?

[英]How to read the content from Nutch index?

我可以使用Nutch抓取并索引网页,但我不知道如何读取索引并从中提取数据。

任何人都可以向我介绍一些阅读索引的有用工具吗?

我想添加一个中文语言分析器和一个IndexFilter插件,所以我想读取索引来验证我的插件。 而且,我想用我使用Java抓取的数据做一些处理。

使用luke工具浏览nutch索引。 dump index选项可以为整个索引创建一个xml文件。 如果你必须通过代码完成,那么你需要学习lucene。

要阅读已爬网的内容,请使用nutch segment reader

您可以使用提供的读取命令

bin/nutch readseg xxx

阅读内容。

希望会对你有所帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM