簡體   English   中英

stormcrawler:indexer.md.mapping-如果元數據標記不存在會發生什么?

[英]stormcrawler: indexer.md.mapping - what happens if the metadata tag does not exist?

關於Stormcrawler 1.13,我們一直遇到一個奇怪的問題。 在我們的某些(但不是全部)網站上,我們有一個<meta name="college" content="thiscollege"/>標記,而SC的indexer.md.mapping設置為- parse.college=college 對於設置了該元標記的網站,這似乎可以正常工作。

我們thiscollege1的問題是,如果將頁面3.html,4.html和5.html的metatag設置為thiscollege1 ,那么抓取工具就會找到沒有meta標簽的page25.html,這似乎是重新對thiscollege1中的meta標簽使用值thiscollege1 ,並將其填充到Elastic index中的college字段中。

有沒有一種方法可以設置該變量,以使該變量在每次轉到新頁面時都將其清零或取消設置,以使該變量不會被繼承?

任何有關如何調整此設置的建議將不勝感激!

追逐問題一直是個麻煩,因為某些記錄似乎只包含隨機條目。 直到我將記錄與某些狀態記錄(按NextFetchDate排序)進行匹配,我才發現它可能是一個結轉變量。 我將嘗試僅用幾頁來設置一個特定的測試,以專門證明/反駁該理論,但是現在,這是唯一適合發生的事情的方法。

任何想法歡迎!

僅當您在config metadata.transfer的值中列出parse.college時 ,才應該發生這種情況。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM