cost 294 ms
全新安裝 nutch 和 solr 爬網錯誤后

[英]after fresh installation of nutch and solr crawl error

全新安裝 nutch 1.19 和 solr 8.11.2 后出現問題。 運行爬網過程后,爬網結束並出現 NullPointerException 和以下錯誤消息: 運行錯誤:/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url= ...

2023-01-06 11:30:19   1   18    solr / nutch  
在評分深度過濾器中更新 Apache-Nutch Crawler 的 Max Depth 不起作用

[英]Updating Max Depth for Apache-Nutch Crawler in scoring-depth filter is not working

我已經設置了 Apache Nutch 1.18 來抓取 web。 對於排名,我使用評分深度過濾器。 默認情況下,最大深度長度設置為 1000(在每個抓取的頁面中)。 現在,我必須更新這個值(例如增加)。 為此,我在 Nutch 更新了以下屬性 現在,在 Nutch 中發生的情況是,已抓取文檔的_m ...

在 SOLR Nutch 中搜索解決錯誤 255

[英]Search for solve a error 255 in SOLR Nutch

我已經在本地機器上用 Nutch 測試了 SOLR,它運行時沒有錯誤。 現在我已將其部署到實時服務器並收到此錯誤 255 在此處輸入代碼退出值 255 失敗。有人知道這可能是什么嗎? ...

2022-07-31 08:37:56   1   28    solr / nutch  
Apache Nutch 使用默認配置抓取的域越來越少

[英]Apache Nutch is crawling few domain more and other less with default configuration

我在 Hadoop 集群上設置了 Apache Nutch 1.18。 我給了它一個大約 10k URL 的種子。 過了一會兒,我運行了 domainstats 命令來了解每個域的統計信息。 了解到Nutch對一些網站的爬取比較嚴格,很多網站只爬了幾頁。 看看下面的圖片 我正在使用大多數默認配置。 ...

使用作業文件運行時,Apache Nutch 未讀取新的配置文件

[英]Apache Nutch not reading a new configuration file when run with job file

我已經為網絡爬蟲配置了 Apache Nutch 1.x。 有一個要求,我應該為每個被索引的域向 Solr 文檔添加一些額外的信息。 配置是一個 JSON 文件。 我為此開發了以下代碼並在本地模式下成功測試。 我已經更新了 index-basic 插件。 代碼片段如下: 完成讀取文件的功能如下 ...

Nutch 在 EMR 中對原始數據進行持久存儲的最佳選擇

[英]Nutch best option for persistent storage in EMR for raw data

我必須在 EMR AWS 服務上使用 Nutch 1.x 爬取大約 30k 到 50k 的域。 這將是漸進的,即首先抓取所有頁面,然后僅抓取這些網站的新頁面或更新頁面。 對於索引,我使用 Apache Solr。我對 EMR 的最佳實踐幾乎沒有疑問如果我必須重新索引或分析舊的爬取數據,我認為原始數據 ...

“ant eclipse”不適用於 Apache Nutch 存儲庫

[英]"ant eclipse" not working for Apache Nutch repository

我想在 Eclipse 中使用 Apache Nutch,我按照本網站https://cwiki.apache.org/confluence/display/nutch/RunNutchInEclipse 中的步驟操作,但是當我運行ant eclipse ,它總是在以下幾行重新啟動開始: 我不知 ...

Apache Nutch 索引器插件到 Manticore 搜索異常:java.lang.NoClassDefFoundError:com/manticoresearch/client/ApiException

[英]Apache Nutch Indexer Plugin to Manticore Search Exception: java.lang.NoClassDefFoundError: com/manticoresearch/client/ApiException

我創建了一個 Apache Nutch 索引器插件,以使用 Manticore Search Java API 將數據推送到 Manticore Search。 構建成功,索引前的所有爬取步驟都成功(注入、生成、獲取、解析、更新b)。 當我運行索引命令bin/nutch index /root/ ...

添加更多 hadoop 節點不會提高 Nutch 爬網速度

[英]Add more hadoop nodes does not improve Nutch Crawling speed

我正在使用 Apache Nutch(1.18 版本)抓取網頁。 我認為添加更多的 hadoop 節點會使 Nutch 抓取網頁的速度更快。 然而,它沒有。 爬3個datanode和5個datanode幾乎沒有區別。 我也添加了 --num-fetchers 參數(值是 5,因為我的 hado ...

Apache Nutch 沒有暴露其 API

[英]Apache Nutch doesn't expose its API

我正在嘗試使用 Apache Nutch 1.x Rest API。 我使用 docker 圖像來設置 Nutch 和 Solr。 你可以在這里看到演示 repo Apache Nutch 使用 Solr 作為其依賴項。 Solr 效果很好,我可以在localhost:8983訪問它的 GUI ...

來自爬行的畸形 URL

[英]Malformed URL from crawl

我對爬行很陌生。 我爬取了一個網頁並提取了超鏈接,然后將其提供給 Apache Nutch 1.18。 所有網址均因格式錯誤而被拒絕。 我想要做的是爬取項目數據庫頁面,提取它們的超鏈接,然后分別爬取每個頁面。 我使用 Scrapy 爬取了數據庫頁面,並將結果保存為 Json 文件。 然后我解析 j ...

nutch-1.18 錯誤 java.lang.NoClassDefFoundError: org/apache/nutch/storage/WebPage$Field

[英]nutch-1.18 error java.lang.NoClassDefFoundError: org/apache/nutch/storage/WebPage$Field

我在所有版本的二進制 nutch、源或 git 源版本上仍然有相同的錯誤,編譯時出現此恆定錯誤: ant 運行時 當我輸入: bin/nutch 注入 base/crawldb urls/ 默認設置是為了消除配置錯誤的來源。 我對 nutch-1.17 和 nutch-1.16 有同樣的錯誤。 ...

2021-05-07 21:46:53   1   31    java / nutch  
Nutch map 減少工作卡在 67%

[英]Nutch map reduce job getting stuck at 67%

我正在使用 Nutch 1.17 在我的本地機器上抓取 Solr 中的網站和索引數據。 最初我設置參數為topN=2,depth=2,爬取成功。 然后,我把參數改成了topN=3,depth=3,但是map-reduce中的reduce過程卡在了67%。 這一切都使用 4GB RAM 運行。 然后 ...

nutch fetch 失敗並出現 java.lang.NumberFormatException

[英]nutch fetch is failing with java.lang.NumberFormatException

我在 Red Hat Enterprise Linux 版本 8.3 (Ootpa) 上運行 Nutch 1.18,帶有 Java openjdk 版本“1.8.0_275” 我遵循這些方向: https://cwiki.apache.org/confluence/display/NUTCH/Nu ...

2021-03-16 15:34:35   1   23    nutch  
Nutch爬蟲:只需要英文頁面

[英]Nutch crawler : only need English pages

我嘗試了 - Nutch crawler: accept only english pages中建議的解決方案,即將以下屬性添加到 nutch-site.xml 我還在學習西班牙語 url。 例如 - www.google.com/es-us/asdfghjk 。 任何修復 nutch-site.x ...

Nutch/Elastic 搜索術語定義

[英]Nutch/Elastic Search terms definition

我使用 nutch 和 Elastisearch 來抓取/解析 99 個網站/鏈接,以便在 Elasicsearch 中為它們編制索引,以便我可以使用搜索引擎。 它確實抓取了所有 99 個網站/鏈接,但我得到的最終消息如下。 我想了解重定向、添加/更新是什么意思? 如果有可能找出哪些已經消失並重定向 ...

Apache Nutch 1.17 分度器兔子不工作

[英]Apache Nutch 1.17 indexer rabbit not working

我正在嘗試將抓取的文檔推送給兔子。 已遵循所有可用的文檔。 IndexWriters 映射 RabbitMQ 自述文件但是,我無法運行 indexer-rabbit。 查看日志,上面甚至沒有提到 indexer-rabbit。 我只是想在進一步配置之前讓它工作。 我嘗試使用一個小的自定義程序連接到 ...

2020-12-20 20:55:20   1   25    nutch  
schema.xml 和 solr 的配置

[英]Configuration of schema.xml for nutch and solr

我對 nutch 和 solr 的配置有疑問。 我是否必須將 solr 中的 _default 目錄命名為 nutch,我是否必須將 schema.xml 文件的頭部標記為 nutch 或者我可以給它命名嗎? 提前致謝 ...

如何將抓取的“html”從 Apache Nutch 索引到 Solr?

[英]How to index crawled "html" from Apache Nutch to Solr?

我想將 Apache Nutch (v1.17) 抓取的網頁的源代碼索引到 Solr (8.6.3) 中的索引,但不知道該怎么做? 至少我只是得到一個准備好的版本,索引到 Solr內容(見下文)。 我已經看過index-writers.xml ,但我仍然不知道該怎么做。 也許你知道怎么做。 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM