[英]What is the proper Stormcrawler settings to capture a meta tag into an index?
对于以下元标记中的信息, crawler-conf.yaml
(以及其他地方,如果需要)中的正确设置是什么:
<meta name="college" content="artdesign"/>
正确地捕获到字段名称为“学院”或“种子”的索引中?
我看到可能需要设置以下设置,但是尝试了各种设置,但似乎无法捕获数据。
在crawler-conf.yaml
:
# lists the metadata to persist to storage
# these are not transfered to the outlinks
metadata.persist:
- _redirTo
- error.cause
- error.source
- isSitemap
- isFeed
- college
- seed
不确定“持久存储”是否意味着要进入索引?
crawler-conf.yaml
的另一个选项是:
# configuration for the classes extending AbstractIndexerBolt
indexer.md.mapping:
- parse.title=title
- parse.keywords=keywords
- parse.description=description
- domain=domain
- college=college
- college=seed
我之前曾问过一个事实,即一段时间以来,“ seed”的某些值似乎正在传播到所获取的没有元标记的文档中。 该设置为:
# metadata to transfer to the outlinks
# used by Fetcher for redirections, sitemapparser, etc...
# these are also persisted for the parent document (see below)
# metadata.transfer:
# - seed
因此,正如标题中所述,我的问题是我如何在crawler-conf.yaml
(或任何其他配置)中配置这些选项,以可靠地从该问题顶部列出的meta标记中捕获数据,而无需传播它可以获取没有该meta标签的文档?
这是我整理的。 上面引用的代码中'parse.title'中引用的'parse'是对src/main/resources/parsefilters.json
顶级类下的一个自定义条目的引用(edit:meta标签的键,然后由其检索)。 src/main/resources/parsefilters.json
文件。 我去那里并添加了一个
"parse.college": "//META[@name=\\"college\\"]/@content"
排在那里,但仍在顶级班级中。
然后,我indexer.md.mapping
下的大学的引用更改为读取- parse.college=college
并重新构建了- parse.college=college
器并运行了它。 然后,它开始正确地抓取<meta name="college" content="artdesign"/>
标记并将其发送到索引中的college
字段。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.