![](/img/trans.png)
[英]Single Crawl script to Crawl website (Nutch) and Index results (Solr)
[英]after fresh installation of nutch and solr crawl error
全新安装 nutch 1.19 和 solr 8.11.2 后出现问题。 运行爬网过程后,爬网结束并出现 NullPointerException 和以下错误消息:
运行错误:/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url=http//localhost:8983/solr/nutch -Dmapreduce.job.reduces=2 -Dmapreduce.reduce.speculative= false -Dmapreduce.map.speculative=false -Dmapreduce.map.output.compress=true -D fetcher.timelimit.mins=180 crawl/segments/20230106121647 -threads 50 失败,退出值为 255。
有谁知道是什么导致了这个错误?
错误消息表明 memory(Java 堆)不足以启动 50 个提取程序线程。 您可以尝试以下操作:
--num-threads n_threads
给 bin/crawl 来减少它NUTCH_HEAPSIZE
设置——默认值为 4 MB,即使有 50 个线程也应该足够,除非你有非常大的文档(例如 PDF 文件)来解析和索引。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.