簡體   English   中英

Stormcrawler的ContentParseFilter

[英]Stormcrawler's ContentParseFilter

如果我將StormCrawler的ContentParseFilter設置為

"pattern": "//DIV[@id=\"site-body\"]",

這是否意味着在處理每個URL時它將是尋找其他頁面鏈接的唯一地方? 我想知道是否設置為它將開始忽略菜單等中的所有網址。

謝謝! 吉姆

請參閱WIKI頁面以獲取ParseFilters

ContentFilter允許將文檔的文本限制為Xpath表達式所覆蓋的文本

它根本不影響鏈接的提取,而是旨在改善索引的文本。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM