Stormcrawler的ContentParseFilter

Question

如果我將StormCrawler的ContentParseFilter設置為

"pattern": "//DIV[@id=\"site-body\"]",

這是否意味着在處理每個URL時它將是尋找其他頁面鏈接的唯一地方？ 我想知道是否設置為它將開始忽略菜單等中的所有網址。

謝謝！ 吉姆

Answer 1

ContentFilter允許將文檔的文本限制為Xpath表達式所覆蓋的文本

它根本不影響鏈接的提取，而是旨在改善索引的文本。