標簽[nutch] - 堆棧內存溢出

[英]after fresh installation of nutch and solr crawl error

全新安裝 nutch 1.19 和 solr 8.11.2 后出現問題。運行爬網過程后，爬網結束並出現 NullPointerException 和以下錯誤消息：運行錯誤：/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url= ...

在評分深度過濾器中更新 Apache-Nutch Crawler 的 Max Depth 不起作用

[英]Updating Max Depth for Apache-Nutch Crawler in scoring-depth filter is not working

我已經設置了 Apache Nutch 1.18 來抓取 web。對於排名，我使用評分深度過濾器。默認情況下，最大深度長度設置為 1000（在每個抓取的頁面中）。現在，我必須更新這個值（例如增加）。為此，我在 Nutch 更新了以下屬性現在，在 Nutch 中發生的情況是，已抓取文檔的_m ...

在 SOLR Nutch 中搜索解決錯誤 255

[英]Search for solve a error 255 in SOLR Nutch

我已經在本地機器上用 Nutch 測試了 SOLR，它運行時沒有錯誤。現在我已將其部署到實時服務器並收到此錯誤 255 在此處輸入代碼退出值 255 失敗。有人知道這可能是什么嗎？ ...

Apache Nutch 使用默認配置抓取的域越來越少

[英]Apache Nutch is crawling few domain more and other less with default configuration

我在 Hadoop 集群上設置了 Apache Nutch 1.18。我給了它一個大約 10k URL 的種子。過了一會兒，我運行了 domainstats 命令來了解每個域的統計信息。了解到Nutch對一些網站的爬取比較嚴格，很多網站只爬了幾頁。看看下面的圖片我正在使用大多數默認配置。 ...

使用作業文件運行時，Apache Nutch 未讀取新的配置文件

[英]Apache Nutch not reading a new configuration file when run with job file

我已經為網絡爬蟲配置了 Apache Nutch 1.x。有一個要求，我應該為每個被索引的域向 Solr 文檔添加一些額外的信息。配置是一個 JSON 文件。我為此開發了以下代碼並在本地模式下成功測試。我已經更新了 index-basic 插件。代碼片段如下：完成讀取文件的功能如下 ...

Nutch 在 EMR 中對原始數據進行持久存儲的最佳選擇

[英]Nutch best option for persistent storage in EMR for raw data

我必須在 EMR AWS 服務上使用 Nutch 1.x 爬取大約 30k 到 50k 的域。這將是漸進的，即首先抓取所有頁面，然后僅抓取這些網站的新頁面或更新頁面。對於索引，我使用 Apache Solr。我對 EMR 的最佳實踐幾乎沒有疑問如果我必須重新索引或分析舊的爬取數據，我認為原始數據 ...

“ant eclipse”不適用於 Apache Nutch 存儲庫

[英]"ant eclipse" not working for Apache Nutch repository

我想在 Eclipse 中使用 Apache Nutch，我按照本網站https://cwiki.apache.org/confluence/display/nutch/RunNutchInEclipse 中的步驟操作，但是當我運行ant eclipse ，它總是在以下幾行重新啟動開始：我不知 ...

Apache Nutch 索引器插件到 Manticore 搜索異常：java.lang.NoClassDefFoundError：com/manticoresearch/client/ApiException

[英]Apache Nutch Indexer Plugin to Manticore Search Exception: java.lang.NoClassDefFoundError: com/manticoresearch/client/ApiException

我創建了一個 Apache Nutch 索引器插件，以使用 Manticore Search Java API 將數據推送到 Manticore Search。構建成功，索引前的所有爬取步驟都成功（注入、生成、獲取、解析、更新b）。當我運行索引命令bin/nutch index /root/ ...

添加更多 hadoop 節點不會提高 Nutch 爬網速度

[英]Add more hadoop nodes does not improve Nutch Crawling speed

我正在使用 Apache Nutch（1.18 版本）抓取網頁。我認為添加更多的 hadoop 節點會使 Nutch 抓取網頁的速度更快。然而，它沒有。爬3個datanode和5個datanode幾乎沒有區別。我也添加了 --num-fetchers 參數（值是 5，因為我的 hado ...

Apache Nutch 沒有暴露其 API

[英]Apache Nutch doesn't expose its API

我正在嘗試使用 Apache Nutch 1.x Rest API。我使用 docker 圖像來設置 Nutch 和 Solr。你可以在這里看到演示 repo Apache Nutch 使用 Solr 作為其依賴項。 Solr 效果很好，我可以在localhost:8983訪問它的 GUI ...

來自爬行的畸形 URL

[英]Malformed URL from crawl

我對爬行很陌生。我爬取了一個網頁並提取了超鏈接，然后將其提供給 Apache Nutch 1.18。所有網址均因格式錯誤而被拒絕。我想要做的是爬取項目數據庫頁面，提取它們的超鏈接，然后分別爬取每個頁面。我使用 Scrapy 爬取了數據庫頁面，並將結果保存為 Json 文件。然后我解析 j ...

nutch-1.18 錯誤 java.lang.NoClassDefFoundError: org/apache/nutch/storage/WebPage$Field

[英]nutch-1.18 error java.lang.NoClassDefFoundError: org/apache/nutch/storage/WebPage$Field

我在所有版本的二進制 nutch、源或 git 源版本上仍然有相同的錯誤，編譯時出現此恆定錯誤： ant 運行時當我輸入： bin/nutch 注入 base/crawldb urls/ 默認設置是為了消除配置錯誤的來源。我對 nutch-1.17 和 nutch-1.16 有同樣的錯誤。 ...

Nutch map 減少工作卡在 67%

[英]Nutch map reduce job getting stuck at 67%

我正在使用 Nutch 1.17 在我的本地機器上抓取 Solr 中的網站和索引數據。最初我設置參數為topN=2，depth=2，爬取成功。然后，我把參數改成了topN=3，depth=3，但是map-reduce中的reduce過程卡在了67%。這一切都使用 4GB RAM 運行。然后 ...

nutch fetch 失敗並出現 java.lang.NumberFormatException

[英]nutch fetch is failing with java.lang.NumberFormatException

我在 Red Hat Enterprise Linux 版本 8.3 (Ootpa) 上運行 Nutch 1.18，帶有 Java openjdk 版本“1.8.0_275” 我遵循這些方向： https://cwiki.apache.org/confluence/display/NUTCH/Nu ...

Nutch爬蟲：只需要英文頁面

[英]Nutch crawler : only need English pages

我嘗試了 - Nutch crawler: accept only english pages中建議的解決方案，即將以下屬性添加到 nutch-site.xml 我還在學習西班牙語 url。例如 - www.google.com/es-us/asdfghjk 。任何修復 nutch-site.x ...

Solr 不返回突出顯示的結果

[英]Solr not returning highlighted results

I am using nutch 1.15 and solr 7.3, and I followed search highlight as per doc - https://lucene.apache.org/solr/guide/7_3/highlighting.html 對我來說，nutc ...

Nutch/Elastic 搜索術語定義

[英]Nutch/Elastic Search terms definition

我使用 nutch 和 Elastisearch 來抓取/解析 99 個網站/鏈接，以便在 Elasicsearch 中為它們編制索引，以便我可以使用搜索引擎。它確實抓取了所有 99 個網站/鏈接，但我得到的最終消息如下。我想了解重定向、添加/更新是什么意思？如果有可能找出哪些已經消失並重定向 ...

Apache Nutch 1.17 分度器兔子不工作

[英]Apache Nutch 1.17 indexer rabbit not working

我正在嘗試將抓取的文檔推送給兔子。已遵循所有可用的文檔。 IndexWriters 映射 RabbitMQ 自述文件但是，我無法運行 indexer-rabbit。查看日志，上面甚至沒有提到 indexer-rabbit。我只是想在進一步配置之前讓它工作。我嘗試使用一個小的自定義程序連接到 ...

schema.xml 和 solr 的配置

[英]Configuration of schema.xml for nutch and solr

我對 nutch 和 solr 的配置有疑問。我是否必須將 solr 中的 _default 目錄命名為 nutch，我是否必須將 schema.xml 文件的頭部標記為 nutch 或者我可以給它命名嗎？提前致謝 ...

如何將抓取的“html”從 Apache Nutch 索引到 Solr？

[英]How to index crawled "html" from Apache Nutch to Solr?

我想將 Apache Nutch (v1.17) 抓取的網頁的源代碼索引到 Solr (8.6.3) 中的索引，但不知道該怎么做？至少我只是得到一個准備好的版本，索引到 Solr內容（見下文）。我已經看過index-writers.xml ，但我仍然不知道該怎么做。也許你知道怎么做。 ...