簡體   English   中英

在評分深度過濾器中更新 Apache-Nutch Crawler 的 Max Depth 不起作用

[英]Updating Max Depth for Apache-Nutch Crawler in scoring-depth filter is not working

我已經設置了 Apache Nutch 1.18 來抓取 web。 對於排名,我使用評分深度過濾器。 默認情況下,最大深度長度設置為 1000(在每個抓取的頁面中)。 現在,我必須更新這個值(例如增加)。 為此,我在 Nutch 更新了以下屬性

<property>
  <name>scoring.depth.max</name>
  <value>1500</value>
</property> 

現在,在 Nutch 中發生的情況是,已抓取文檔的_maxdepth_元數據字段不會更新。 我期望的是,應該更改此值,以便爬行者在較低的深度中進一步爬行(當Ze6b391a8d2c45902a23a23a23a23a8b6585703dz選擇以獲取fitch時)。

簡而言之,如何在 Nutch 中更新爬網文檔中的_maxdepth_字段?

下面是今天示例的圖片,其中最大深度設置為 2,后來我更改為 4。我還觀察到 lastModifiedField 設置為 0 的問題(我認為它不應該改變,或者如果更新,那么它應該是時間戳)。 在此處輸入圖像描述

如何在 Nutch 中更新已抓取文檔中的maxdepth字段?

對此沒有開箱即用的解決方案: _maxdepth_字段也可以通過添加種子從種子列表中設置,例如

https://example.com/ \t _maxdepth_=3

但是,是的,僅跟蹤從具有特定 maxdepth 集的種子中首先找到的頁面的 maxdepth 可能是一種改進。 如果是這樣,請在此處報告。

修改時間:Tue Aug 02...

最后修改字段:0

ProtocolStatus ( _pst_ ) 元數據中的值可能會根據用於獲取頁面的協議實現進行設置或不設置。 “修改時間”是 CrawlDatum object 的一個字段,是強制性且可靠地設置的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM