繁体   English   中英

stormcrawler:indexer.md.mapping-如果元数据标记不存在会发生什么?

[英]stormcrawler: indexer.md.mapping - what happens if the metadata tag does not exist?

关于Stormcrawler 1.13,我们一直遇到一个奇怪的问题。 在我们的某些(但不是全部)网站上,我们有一个<meta name="college" content="thiscollege"/>标记,而SC的indexer.md.mapping设置为- parse.college=college 对于设置了该元标记的网站,这似乎可以正常工作。

我们thiscollege1的问题是,如果将页面3.html,4.html和5.html的metatag设置为thiscollege1 ,那么抓取工具就会找到没有meta标签的page25.html,这似乎是重新对thiscollege1中的meta标签使用值thiscollege1 ,并将其填充到Elastic index中的college字段中。

有没有一种方法可以设置该变量,以使该变量在每次转到新页面时都将其清零或取消设置,以使该变量不会被继承?

任何有关如何调整此设置的建议将不胜感激!

追逐问题一直是个麻烦,因为某些记录似乎只包含随机条目。 直到我将记录与某些状态记录(按NextFetchDate排序)进行匹配,我才发现它可能是一个结转变量。 我将尝试仅用几页来设置一个特定的测试,以专门证明/反驳该理论,但是现在,这是唯一适合发生的事情的方法。

任何想法欢迎!

仅当您在config metadata.transfer的值中列出parse.college时 ,才应该发生这种情况。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM