繁体   English   中英

全新安装 nutch 和 solr 爬网错误后

[英]after fresh installation of nutch and solr crawl error

全新安装 nutch 1.19 和 solr 8.11.2 后出现问题。 运行爬网过程后,爬网结束并出现 NullPointerException 和以下错误消息:

运行错误:/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url=http//localhost:8983/solr/nutch -Dmapreduce.job.reduces=2 -Dmapreduce.reduce.speculative= false -Dmapreduce.map.speculative=false -Dmapreduce.map.output.compress=true -D fetcher.timelimit.mins=180 crawl/segments/20230106121647 -threads 50 失败,退出值为 255。

有谁知道是什么导致了这个错误?

错误消息表明 memory(Java 堆)不足以启动 50 个提取程序线程。 您可以尝试以下操作:

  1. 如果不需要默认数量的 50 个提取线程,请通过将选项--num-threads n_threads给 bin/crawl 来减少它
  2. Java 堆大小可以通过环境变量NUTCH_HEAPSIZE设置——默认值为 4 MB,即使有 50 个线程也应该足够,除非你有非常大的文档(例如 PDF 文件)来解析和索引。
  3. 您的系统可能存在限制,需要使用较少的 memory 或线程

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM