簡體 English 中英

Apache Nutch 使用默認配置抓取的域越來越少

[英]Apache Nutch is crawling few domain more and other less with default configuration

原文 2022-07-18 11:35:48 1 1 web-crawler/ nutch/ nutch2

我在 Hadoop 集群上設置了 Apache Nutch 1.18。 我給了它一個大約 10k URL 的種子。 過了一會兒，我運行了 domainstats 命令來了解每個域的統計信息。 了解到Nutch對一些網站的爬取比較嚴格，很多網站只爬了幾頁。 看看下面的圖片

我正在使用大多數默認配置。 只有 generate.max 設置為 500。問題出在哪里？

如何配置 Nutch 在選擇 URL 時考慮同一級別的所有域
如何配置 Nutch 以專注於那些很少被抓取的網站
此外，在 10k 中，Nutch 只給了我大約 3k 的統計數據。 如何獲取所有種子 URL 的統計信息（即使沒有找到）

1 個解決方案

在獲取列表生成期間，Nutch 按主機名對 URL 進行分組 - generate.count.mode的默認值，也可以按注冊的域或 IP。 獲取列表的總大小和每個主機/域/IP 的獲取列表都是可配置的。

如果需要在生成-獲取-更新周期中包含來自所有主機的 URL，則獲取列表的總大小（ --size-fetchlist用於 bin/crawl 或-topN用於 bin/nutch）應該是唯一主機名的數量。 例如，對於 10k 主機/站點，合理的獲取列表大小可能是 200k。 為確保包含所有主機/站點，請設置最大值。 每個主機獲取列表（屬性generate.max.count ）的大小到乘數的值，這里是 20。

請注意，提取列表大小不應太小，因為運行提取周期會產生一定的開銷（DNS 查找、robots.txt 提取和解析，以及用於生成和更新步驟的資源）。