![](/img/trans.png)
[英]Can we crawl and index Google Drive documents using nutch and solr?
[英]Can I crawl with Nutch, store in Cassandra, index using Solr?
我正在开发关键字分析应用程序。 我希望使用Nutch爬网,使用Solr索引输出,最后将数据存储在Cassandra中。
稍后,我应该能够在Solr上进行搜索查询和分析,并且它必须从Cassandra获取相关数据。
这种设置可行吗? 如果是,我有什么要记住的吗?
如果使用Datastax的Cassandra,则将Cassandra表索引到Solr中要容易得多。 这是http://www.datastax.com/what-we-offer/products-services/datastax-enterprise/apache-solr上的链接
我认为可以,但是我不是Cassandra用户,所以从未尝试过。
您必须配置gora.properties( http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora.properties )才能启用Cassandra。 在《 Nutch 2教程》( http://wiki.apache.org/nutch/Nutch2Tutorial )中,该操作适用于HBase。
要了解Cassandra中的数据映射位置,您需要查看http://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/conf/gora-cassandra-中的映射mapping.xml
Nutch将数据存储在Cassandra中。 关于Solr我不知道(我从未使用过Solr)。
以编程方式可能的....您可以从solr索引中获取结果...在cassandra和Solr中都保留唯一的ID ...从solr中获取该ID并从cassandra中获取整个结果.....
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.