簡體 English 中英

使用Nutch或Heritrix進行定向爬網

[英]Directed crawl using Nutch or Heritrix

原文 2010-07-15 11:01:17 3 1 java/ nutch

我已經看到了Nutch和Heritrix的爬行方式。 它們都具有生成/獲取/更新周期的概念，該周期從某些種子url開始，並在獲取步驟之后遍歷結果url。

作用域/過濾邏輯適用於應用於提取的URL的正則表達式。

我想做一些非常具體的事情。 我不想從頁面中提取所有URL，但我希望基於一些xpath來獲取URL。 原因是：-並非所有的url都可以使用精確的正則表達式分類-我可能會錯過某些超出給定reg ex的url-我可能也想遵循“下一頁”的順序-特定的抓取周期可能基於xpath每個深度的過濾器。

有人用Heritrix的Nutch做過這樣的事嗎？

謝謝內恩

1 個解決方案

我試圖同時創建這兩個POC。 我需要外鏈以diff規則集開始下一個爬網階段。 對於heritrix，由於所有出站均被丟棄，因此無法在最后一跳上保留出站。 使用Nutch，無法合並我自己的刮板，該刮板不會返回其內部數據結構（如ParseData等）所需的出站等。此外，它還與Lucene和相關的索引系統緊密結合。 謝謝內恩

比較Nutch與Heritrix

[英]Give comparision of Nutch Vs Heritrix

使用Nutch如何抓取uisng ajax的網頁的動態內容？

[英]Using Nutch how to crawl the dynamic content of web page that are uisng ajax?

空的Nutch抓取列表

[英]Empty Nutch crawl list

Nutch regex用於抓取

[英]Nutch regex for crawl

如何使用Nutch抓取和解析僅精確數據？

[英]How to crawl and parse only precise data using Nutch?

Nutch不會對具有查詢字符串參數的URL進行爬網

[英]Nutch does not crawl URLs with query string parameters

如何定義我的堅果爬行的覆蓋范圍？

[英]How to define the coverage of my nutch crawl?

無法使用Nutch 2.3抓取經過身份驗證的頁面

[英]Failed to crawl authenticated page with Nutch 2.3

堅果-如何抓取特定文件類型？

[英]nutch - how to crawl a specific file type?

如何配置Heritrix記錄所有遇到的URL，包括經過過濾/不進行爬網的URL？

[英]How to configure heritrix to log all encountered URLs including those which are filtered / not to crawl?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 比較Nutch與Heritrix 使用Nutch如何抓取uisng ajax的網頁的動態內容？空的Nutch抓取列表 Nutch regex用於抓取如何使用Nutch抓取和解析僅精確數據？ Nutch不會對具有查詢字符串參數的URL進行爬網如何定義我的堅果爬行的覆蓋范圍？無法使用Nutch 2.3抓取經過身份驗證的頁面堅果-如何抓取特定文件類型？如何配置Heritrix記錄所有遇到的URL，包括經過過濾/不進行爬網的URL？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM