繁体   English   中英

要将meta标签捕获到索引中,正确的Stormcrawler设置是什么?

[英]What is the proper Stormcrawler settings to capture a meta tag into an index?

更新:我想通了。 见底...但是如果我错过任何事情,请随时纠正我...

对于以下元标记中的信息, crawler-conf.yaml (以及其他地方,如果需要)中的正确设置是什么:

<meta name="college" content="artdesign"/>

正确地捕获到字段名称为“学院”或“种子”的索引中?

我看到可能需要设置以下设置,但是尝试了各种设置,但似乎无法捕获数据。

crawler-conf.yaml

# lists the metadata to persist to storage
  # these are not transfered to the outlinks
  metadata.persist:
   - _redirTo
   - error.cause
   - error.source
   - isSitemap
   - isFeed
   - college
   - seed

不确定“持久存储”是否意味着要进入索引?

crawler-conf.yaml的另一个选项是:

# configuration for the classes extending AbstractIndexerBolt
  indexer.md.mapping:
  - parse.title=title
  - parse.keywords=keywords
  - parse.description=description
  - domain=domain
  - college=college
  - college=seed

我之前曾问过一个事实,即一段时间以来,“ seed”的某些值似乎正在传播到所获取的没有元标记的文档中。 该设置为:

  # metadata to transfer to the outlinks
  # used by Fetcher for redirections, sitemapparser, etc...
  # these are also persisted for the parent document (see below)
  # metadata.transfer:
  # - seed

因此,正如标题中所述,我的问题是我如何在crawler-conf.yaml (或任何其他配置)中配置这些选项,以可靠地从该问题顶部列出的meta标记中捕获数据,而无需传播它可以获取没有该meta标签的文档?

这是我整理的。 上面引用的代码中'parse.title'中引用的'parse'是对src/main/resources/parsefilters.json顶级类下的一个自定义条目的引用(edit:meta标签的键,然后由其检索)。 src/main/resources/parsefilters.json文件。 我去那里并添加了一个

"parse.college": "//META[@name=\\"college\\"]/@content"

排在那里,但仍在顶级班级中。

然后,我indexer.md.mapping下的大学的引用更改为读取- parse.college=college并重新构建了- parse.college=college器并运行了它。 然后,它开始正确地抓取<meta name="college" content="artdesign"/>标记并将其发送到索引中的college字段。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM