簡體   English   中英

使用Nutch或Heritrix進行定向爬網

[英]Directed crawl using Nutch or Heritrix

我已經看到了Nutch和Heritrix的爬行方式。 它們都具有生成/獲取/更新周期的概念,該周期從某些種子url開始,並在獲取步驟之后遍歷結果url。

作用域/過濾邏輯適用於應用於提取的URL的正則表達式。

我想做一些非常具體的事情。 我不想從頁面中提取所有URL,但我希望基於一些xpath來獲取URL。 原因是:-並非所有的url都可以使用精確的正則表達式分類-我可能會錯過某些超出給定reg ex的url-我可能也想遵循“下一頁”的順序-特定的抓取周期可能基於xpath每個深度的過濾器。

有人用Heritrix的Nutch做過這樣的事嗎?

謝謝內恩

我試圖同時創建這兩個POC。 我需要外鏈以diff規則集開始下一個爬網階段。 對於heritrix,由於所有出站均被丟棄,因此無法在最后一跳上保留出站。 使用Nutch,無法合並我自己的刮板,該刮板不會返回其內部數據結構(如ParseData等)所需的出站等。此外,它還與Lucene和相關的索引系統緊密結合。 謝謝內恩

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM