繁体   English   中英

我可以使用Nutch爬网,存储在Cassandra中,使用Solr进行索引吗?

[英]Can I crawl with Nutch, store in Cassandra, index using Solr?

我正在开发关键字分析应用程序。 我希望使用Nutch爬网,使用Solr索引输出,最后将数据存储在Cassandra中。

稍后,我应该能够在Solr上进行搜索查询和分析,并且它必须从Cassandra获取相关数据。

这种设置可行吗? 如果是,我有什么要记住的吗?

如果使用Datastax的Cassandra,则将Cassandra表索引到Solr中要容易得多。 这是http://www.datastax.com/what-we-offer/products-services/datastax-enterprise/apache-solr上的链接

我认为可以,但是我不是Cassandra用户,所以从未尝试过。

您必须配置gora.properties( http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora.properties )才能启用Cassandra。 在《 Nutch 2教程》( http://wiki.apache.org/nutch/Nutch2Tutorial )中,该操作适用于HBase。

要了解Cassandra中的数据映射位置,您需要查看http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora-cassandra-中的映射mapping.xml

Nutch将数据存储在Cassandra中。 关于Solr我不知道(我从未使用过Solr)。

以编程方式可能的....您可以从solr索引中获取结果...在cassandra和Solr中都保留唯一的ID ...从solr中获取该ID并从cassandra中获取整个结果.....

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM