[英]How to get list of stored tokens created by analyzer in solr 6.6.0
我正在上载文档以在solr中建立索引,它工作正常,并且在luke的帮助下,我可以获取solr创建的所有索引项。
我的要求是获取分析器创建的令牌列表。 例如,如果我通过“ This is Simple HTML Document”,那么令牌生成器将创建令牌,如下所示:
[simple] [html] [document] 。 我需要这份清单作为我的索引文件。
我怎么能得到这个。
谢谢
您可以尝试使用
术语向量组件(TVC)是一个SearchComponent,旨在返回有关在字段上设置termVector属性时存储的文档的信息:
<field name="features" type="text" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/>
solrconfig.xml中所需的更改
您需要在solr配置中启用TermVectorComponent(已经在示例solrconfig.xml中):
<searchComponent name="tvComponent" class="org.apache.solr.handler.component.TermVectorComponent"/>
使用此组件的RequestHandler配置如下所示:
<requestHandler name="tvrh" class="org.apache.solr.handler.component.SearchHandler">
<lst name="defaults">
<bool name="tv">true</bool>
</lst>
<arr name="last-components">
<str>tvComponent</str>
</arr>
</requestHandler>
您可以在“ Solr管理员”页面的“分析”选项卡中获取该信息
有多种方法可以实现此目的:
1)如果您为感兴趣的字段启用了术语向量,则可以使用术语向量组件。
2)您可以探索模式浏览器功能并查看索引标记
3)您可以使用luke探索每个文档/字段的索引标记
4)您可以使用分析工具即时运行分析
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.