![](/img/trans.png)
[英]after fresh installation of nutch and solr crawl error
全新安裝 nutch 1.19 和 solr 8.11.2 后出現問題。 運行爬網過程后,爬網結束並出現 NullPointerException 和以下錯誤消息: 運行錯誤:/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url= ...
[英]after fresh installation of nutch and solr crawl error
全新安裝 nutch 1.19 和 solr 8.11.2 后出現問題。 運行爬網過程后,爬網結束並出現 NullPointerException 和以下錯誤消息: 運行錯誤:/opt/solr/apache-nutch-1.19/bin/nutch fetch -Dsolr.server.url= ...
[英]Updating Max Depth for Apache-Nutch Crawler in scoring-depth filter is not working
我已經設置了 Apache Nutch 1.18 來抓取 web。 對於排名,我使用評分深度過濾器。 默認情況下,最大深度長度設置為 1000(在每個抓取的頁面中)。 現在,我必須更新這個值(例如增加)。 為此,我在 Nutch 更新了以下屬性 現在,在 Nutch 中發生的情況是,已抓取文檔的_m ...
[英]Search for solve a error 255 in SOLR Nutch
我已經在本地機器上用 Nutch 測試了 SOLR,它運行時沒有錯誤。 現在我已將其部署到實時服務器並收到此錯誤 255 在此處輸入代碼退出值 255 失敗。有人知道這可能是什么嗎? ...
[英]Apache Nutch is crawling few domain more and other less with default configuration
我在 Hadoop 集群上設置了 Apache Nutch 1.18。 我給了它一個大約 10k URL 的種子。 過了一會兒,我運行了 domainstats 命令來了解每個域的統計信息。 了解到Nutch對一些網站的爬取比較嚴格,很多網站只爬了幾頁。 看看下面的圖片 我正在使用大多數默認配置。 ...
[英]Apache Nutch not reading a new configuration file when run with job file
我已經為網絡爬蟲配置了 Apache Nutch 1.x。 有一個要求,我應該為每個被索引的域向 Solr 文檔添加一些額外的信息。 配置是一個 JSON 文件。 我為此開發了以下代碼並在本地模式下成功測試。 我已經更新了 index-basic 插件。 代碼片段如下: 完成讀取文件的功能如下 ...
[英]Nutch best option for persistent storage in EMR for raw data
我必須在 EMR AWS 服務上使用 Nutch 1.x 爬取大約 30k 到 50k 的域。 這將是漸進的,即首先抓取所有頁面,然后僅抓取這些網站的新頁面或更新頁面。 對於索引,我使用 Apache Solr。我對 EMR 的最佳實踐幾乎沒有疑問如果我必須重新索引或分析舊的爬取數據,我認為原始數據 ...
[英]"ant eclipse" not working for Apache Nutch repository
我想在 Eclipse 中使用 Apache Nutch,我按照本網站https://cwiki.apache.org/confluence/display/nutch/RunNutchInEclipse 中的步驟操作,但是當我運行ant eclipse ,它總是在以下幾行重新啟動開始: 我不知 ...
[英]Apache Nutch Indexer Plugin to Manticore Search Exception: java.lang.NoClassDefFoundError: com/manticoresearch/client/ApiException
我創建了一個 Apache Nutch 索引器插件,以使用 Manticore Search Java API 將數據推送到 Manticore Search。 構建成功,索引前的所有爬取步驟都成功(注入、生成、獲取、解析、更新b)。 當我運行索引命令bin/nutch index /root/ ...
[英]Add more hadoop nodes does not improve Nutch Crawling speed
我正在使用 Apache Nutch(1.18 版本)抓取網頁。 我認為添加更多的 hadoop 節點會使 Nutch 抓取網頁的速度更快。 然而,它沒有。 爬3個datanode和5個datanode幾乎沒有區別。 我也添加了 --num-fetchers 參數(值是 5,因為我的 hado ...
[英]Apache Nutch doesn't expose its API
我正在嘗試使用 Apache Nutch 1.x Rest API。 我使用 docker 圖像來設置 Nutch 和 Solr。 你可以在這里看到演示 repo Apache Nutch 使用 Solr 作為其依賴項。 Solr 效果很好,我可以在localhost:8983訪問它的 GUI ...
[英]Malformed URL from crawl
我對爬行很陌生。 我爬取了一個網頁並提取了超鏈接,然后將其提供給 Apache Nutch 1.18。 所有網址均因格式錯誤而被拒絕。 我想要做的是爬取項目數據庫頁面,提取它們的超鏈接,然后分別爬取每個頁面。 我使用 Scrapy 爬取了數據庫頁面,並將結果保存為 Json 文件。 然后我解析 j ...
[英]nutch-1.18 error java.lang.NoClassDefFoundError: org/apache/nutch/storage/WebPage$Field
我在所有版本的二進制 nutch、源或 git 源版本上仍然有相同的錯誤,編譯時出現此恆定錯誤: ant 運行時 當我輸入: bin/nutch 注入 base/crawldb urls/ 默認設置是為了消除配置錯誤的來源。 我對 nutch-1.17 和 nutch-1.16 有同樣的錯誤。 ...
[英]Nutch map reduce job getting stuck at 67%
我正在使用 Nutch 1.17 在我的本地機器上抓取 Solr 中的網站和索引數據。 最初我設置參數為topN=2,depth=2,爬取成功。 然后,我把參數改成了topN=3,depth=3,但是map-reduce中的reduce過程卡在了67%。 這一切都使用 4GB RAM 運行。 然后 ...
[英]nutch fetch is failing with java.lang.NumberFormatException
我在 Red Hat Enterprise Linux 版本 8.3 (Ootpa) 上運行 Nutch 1.18,帶有 Java openjdk 版本“1.8.0_275” 我遵循這些方向: https://cwiki.apache.org/confluence/display/NUTCH/Nu ...
[英]Nutch crawler : only need English pages
我嘗試了 - Nutch crawler: accept only english pages中建議的解決方案,即將以下屬性添加到 nutch-site.xml 我還在學習西班牙語 url。 例如 - www.google.com/es-us/asdfghjk 。 任何修復 nutch-site.x ...
[英]Solr not returning highlighted results
I am using nutch 1.15 and solr 7.3, and I followed search highlight as per doc - https://lucene.apache.org/solr/guide/7_3/highlighting.html 對我來說,nutc ...
[英]Nutch/Elastic Search terms definition
我使用 nutch 和 Elastisearch 來抓取/解析 99 個網站/鏈接,以便在 Elasicsearch 中為它們編制索引,以便我可以使用搜索引擎。 它確實抓取了所有 99 個網站/鏈接,但我得到的最終消息如下。 我想了解重定向、添加/更新是什么意思? 如果有可能找出哪些已經消失並重定向 ...
[英]Apache Nutch 1.17 indexer rabbit not working
我正在嘗試將抓取的文檔推送給兔子。 已遵循所有可用的文檔。 IndexWriters 映射 RabbitMQ 自述文件但是,我無法運行 indexer-rabbit。 查看日志,上面甚至沒有提到 indexer-rabbit。 我只是想在進一步配置之前讓它工作。 我嘗試使用一個小的自定義程序連接到 ...
[英]Configuration of schema.xml for nutch and solr
我對 nutch 和 solr 的配置有疑問。 我是否必須將 solr 中的 _default 目錄命名為 nutch,我是否必須將 schema.xml 文件的頭部標記為 nutch 或者我可以給它命名嗎? 提前致謝 ...
[英]How to index crawled "html" from Apache Nutch to Solr?
我想將 Apache Nutch (v1.17) 抓取的網頁的源代碼索引到 Solr (8.6.3) 中的索引,但不知道該怎么做? 至少我只是得到一個准備好的版本,索引到 Solr內容(見下文)。 我已經看過index-writers.xml ,但我仍然不知道該怎么做。 也許你知道怎么做。 ...