簡體   English   中英

全新安裝 nutch 和 solr 爬網錯誤后

[英]after fresh installation of nutch and solr crawl error

全新安裝 nutch 1.19 和 solr 8.11.2 后出現問題。 運行爬網過程后,爬網結束並出現 NullPointerException 和以下錯誤消息:

運行錯誤:/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url=http//localhost:8983/solr/nutch -Dmapreduce.job.reduces=2 -Dmapreduce.reduce.speculative= false -Dmapreduce.map.speculative=false -Dmapreduce.map.output.compress=true -D fetcher.timelimit.mins=180 crawl/segments/20230106121647 -threads 50 失敗,退出值為 255。

有誰知道是什么導致了這個錯誤?

錯誤消息表明 memory(Java 堆)不足以啟動 50 個提取程序線程。 您可以嘗試以下操作:

  1. 如果不需要默認數量的 50 個提取線程,請通過將選項--num-threads n_threads給 bin/crawl 來減少它
  2. Java 堆大小可以通過環境變量NUTCH_HEAPSIZE設置——默認值為 4 MB,即使有 50 個線程也應該足夠,除非你有非常大的文檔(例如 PDF 文件)來解析和索引。
  3. 您的系統可能存在限制,需要使用較少的 memory 或線程

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM