![](/img/trans.png)
[英]Single Crawl script to Crawl website (Nutch) and Index results (Solr)
[英]after fresh installation of nutch and solr crawl error
全新安裝 nutch 1.19 和 solr 8.11.2 后出現問題。 運行爬網過程后,爬網結束並出現 NullPointerException 和以下錯誤消息:
運行錯誤:/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url=http//localhost:8983/solr/nutch -Dmapreduce.job.reduces=2 -Dmapreduce.reduce.speculative= false -Dmapreduce.map.speculative=false -Dmapreduce.map.output.compress=true -D fetcher.timelimit.mins=180 crawl/segments/20230106121647 -threads 50 失敗,退出值為 255。
有誰知道是什么導致了這個錯誤?
錯誤消息表明 memory(Java 堆)不足以啟動 50 個提取程序線程。 您可以嘗試以下操作:
--num-threads n_threads
給 bin/crawl 來減少它NUTCH_HEAPSIZE
設置——默認值為 4 MB,即使有 50 個線程也應該足夠,除非你有非常大的文檔(例如 PDF 文件)來解析和索引。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.