[英]stormcrawler: indexer.md.mapping - what happens if the metadata tag does not exist?
關於Stormcrawler 1.13,我們一直遇到一個奇怪的問題。 在我們的某些(但不是全部)網站上,我們有一個<meta name="college" content="thiscollege"/>
標記,而SC的indexer.md.mapping
設置為- parse.college=college
。 對於設置了該元標記的網站,這似乎可以正常工作。
我們thiscollege1
的問題是,如果將頁面3.html,4.html和5.html的metatag設置為thiscollege1
,那么抓取工具就會找到沒有meta標簽的page25.html,這似乎是重新對thiscollege1
中的meta標簽使用值thiscollege1
,並將其填充到Elastic index中的college
字段中。
有沒有一種方法可以設置該變量,以使該變量在每次轉到新頁面時都將其清零或取消設置,以使該變量不會被繼承?
任何有關如何調整此設置的建議將不勝感激!
追逐問題一直是個麻煩,因為某些記錄似乎只包含隨機條目。 直到我將記錄與某些狀態記錄(按NextFetchDate排序)進行匹配,我才發現它可能是一個結轉變量。 我將嘗試僅用幾頁來設置一個特定的測試,以專門證明/反駁該理論,但是現在,這是唯一適合發生的事情的方法。
任何想法歡迎!
僅當您在config metadata.transfer的值中列出parse.college時 ,才應該發生這種情況。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.