要将meta标签捕获到索引中，正确的Stormcrawler设置是什么？

Question

更新：我想通了。见底...但是如果我错过任何事情，请随时纠正我...

对于以下元标记中的信息， crawler-conf.yaml （以及其他地方，如果需要）中的正确设置是什么：

<meta name="college" content="artdesign"/>

正确地捕获到字段名称为“学院”或“种子”的索引中？

我看到可能需要设置以下设置，但是尝试了各种设置，但似乎无法捕获数据。

在crawler-conf.yaml ：

# lists the metadata to persist to storage
  # these are not transfered to the outlinks
  metadata.persist:
   - _redirTo
   - error.cause
   - error.source
   - isSitemap
   - isFeed
   - college
   - seed

不确定“持久存储”是否意味着要进入索引？

crawler-conf.yaml的另一个选项是：

# configuration for the classes extending AbstractIndexerBolt
  indexer.md.mapping:
  - parse.title=title
  - parse.keywords=keywords
  - parse.description=description
  - domain=domain
  - college=college
  - college=seed

我之前曾问过一个事实，即一段时间以来，“ seed”的某些值似乎正在传播到所获取的没有元标记的文档中。 该设置为：

  # metadata to transfer to the outlinks
  # used by Fetcher for redirections, sitemapparser, etc...
  # these are also persisted for the parent document (see below)
  # metadata.transfer:
  # - seed

因此，正如标题中所述，我的问题是我如何在crawler-conf.yaml （或任何其他配置）中配置这些选项，以可靠地从该问题顶部列出的meta标记中捕获数据，而无需传播它可以获取没有该meta标签的文档？

Answer 1

这是我整理的。 上面引用的代码中'parse.title'中引用的'parse'是对src/main/resources/parsefilters.json顶级类下的一个自定义条目的引用（edit：meta标签的键，然后由其检索）。 src/main/resources/parsefilters.json文件。 我去那里并添加了一个

"parse.college": "//META[@name=\\"college\\"]/@content"

排在那里，但仍在顶级班级中。

然后，我indexer.md.mapping下的大学的引用更改为读取- parse.college=college并重新构建了- parse.college=college器并运行了它。 然后，它开始正确地抓取<meta name="college" content="artdesign"/>标记并将其发送到索引中的college字段。

要将meta标签捕获到索引中，正确的Stormcrawler设置是什么？

问题描述

更新：我想通了。见底...但是如果我错过任何事情，请随时纠正我...

1 个解决方案

解决方案1
1 已采纳 2019-06-11 01:47:04

要将meta标签捕获到索引中，正确的Stormcrawler设置是什么？

问题描述

更新：我想通了。 见底...但是如果我错过任何事情，请随时纠正我...

1 个解决方案

解决方案1 1 已采纳 2019-06-11 01:47:04

更新：我想通了。见底...但是如果我错过任何事情，请随时纠正我...

解决方案1
1 已采纳 2019-06-11 01:47:04