![](/img/trans.png)
[英]Why does my Apache Nutch warc and commoncrawldump fail after crawl?
[英]Why does Apache Nutch clean job fails with Apache Solr in cloud mode
我正在尝试在云模式下使用 Apache Solr 7.6.0 设置 Apache Nutch 1.15。 爬行脚本 ( nutch/bin/crawl
) 工作正常,直到清理作业 ( CleaningJob.java
) 开始。 然后它无缘无故地失败( reason: NA
)。
我已经成功设置了相同版本的 Nutch 和 Solr,但 Sorl 处于独立模式。
我使用以下命令在云模式下启动 Solr:
solr/bin/solr start -cloud -p 8983 -s "solr/cloud/node1/solr"
solr/bin/solr start -cloud -p 7574 -s "solr/cloud/node2/solr" -z localhost:9983
我正在使用以下命令开始抓取过程:
nutch/bin/crawl -i -s nutch/urls/ --num-threads 400 --hostdbupdate --hostdbgenerate --num-tasks 16 --sitemaps-from-hostdb once niche-crawl 8
它在清洁工作中失败。 :
nutch/bin/nutch clean niche-crawl/crawldb
有一个例外:
No exchange was configured. The documents will be routed to all index writers.
SolrIndexer: deleting 1000/1000 documents
SolrIndexer: deleting 1000/1000 documents
ERROR CleaningJob: java.lang.RuntimeException: CleaningJob did not succeed, job status:FAILED, reason: NA
at org.apache.nutch.indexer.CleaningJob.delete(CleaningJob.java:169)
at org.apache.nutch.indexer.CleaningJob.run(CleaningJob.java:197)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.indexer.CleaningJob.main(CleaningJob.java:208)
这是我在云模式下用于 Solr 的index-writers.xml
:
<writer id="indexer_solr_1" class="org.apache.nutch.indexwriter.solr.SolrIndexWriter">
<parameters>
<param name="type" value="cloud"/>
<param name="url" value="http://localhost:8983/solr"/>
<param name="collection" value="nutch"/>
<param name="weight.field" value=""/>
<param name="commitSize" value="1000"/>
<param name="auth" value="true"/>
<param name="username" value="solr"/>
<param name="password" value="password"/>
</parameters>
<mapping>
<copy>
<!-- <field source="content" dest="search"/> -->
<!-- <field source="title" dest="title,search"/> -->
</copy>
<rename>
<field source="metatag.description" dest="description"/>
<field source="metatag.keywords" dest="keywords"/>
</rename>
<remove>
<field source="segment"/>
</remove>
</mapping>
</writer>
尝试升级到 Nutch 1.16 版。 这听起来像是一个已知的错误https://issues.apache.org/jira/browse/NUTCH-2731已在 1.16 中修复,请参阅https://apache.org/dist/nutch/1.16/CHANGES.txt
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.