繁体   English   中英

用Solr索引HTML

[英]Indexing HTML with solr

我正在用小坚果爬进我们的大型网站,然后用solr编制索引,结果相当不错。 但是,整个站点上有几种菜单结构可以索引和破坏查询结果。

每个菜单都在DIV中明确定义,因此<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>以及其他几个菜单。

在某些时候,我需要删除这些DIVS中的内容。

我猜测正确的地方是在通过solr进行索引编制期间,但无法确定如何进行。

模式看起来像(<div id="calendar">).*?(<\\/div>)但我无法在<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\\/div>)" /> ,我不确定如何将其放在schema.xml中。

当我确实将该模式放在schema.xml中时,不会解析。

我要添加此行,以便进行编辑

您是否看过solr中可用的HTML不同的HTML标记器?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripWhitespaceTokenizerFactory

他们应该帮助您解决此问题。 您不应该为html标签本身编制索引。 但是,如果您需要唯一地标识某些标签,则需要创建各个字段并将这些特殊标签的内容存储在这些字段中。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM