[英]Nutch - Are the -depth and -topN still available in 1.6
我想知道參數-depth
& -topN
是否仍然可用1.6。
我什至不知道這些參數與/ bin / crawl bash腳本中的limit
參數有什么區別?
對於描述:-
depth
depth指示應從根頁面開始的鏈接深度。
例如,您可以在根頁掃描中包含鏈接,而鏈接中將包含鏈接,依此類推。 這可能導致鏈接的指數掃描。 深度參數限制了將從根頁面掃描的鏈接的層次結構。
topN
N確定在直至深度的每個級別將檢索的最大頁面數。
例如,您在根頁面上可能有100個鏈接。 topN將限制每個級別上要掃描的鏈接數。
因此,基本上應掃描的最大鏈接數將是“根頁數*深度* topN”
另外,在文檔中看不到它們已被刪除或棄用。 因此,我認為它們可用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.