繁体   English   中英

使用Apache Lucene标记字符串

[英]Tokenize a string using apache lucene

如何基于模式标记字符串?

例。 在以下字符串中

arg1:aaa,bbb AND arg2:ccc OR arg3:ddd,eee,fff

首先,我想基于AND和OR进行标记化

所以

Token set 1 arg1:aaa,bbb

Token set 2 arg2:ccc

Token set 3 arg3:ddd,eee,fff

稍后,我想将这些单独的令牌集传递给方法并基于“:”进行令牌化

Token set 1
Token 1 aaa
Token 2 bbb

Token set 2
Token 1 ccc

Token set 3
Token 1 ddd
Token 2 eee
Token 3 fff

如何使用Lucene使用自定义模式来标记化?

要执行自定义标记化实现,通常需要实现自己的Tokenizer 需要实现的主要方法是TokenStream.incrementToken()

然后可以将您的Tokenizer器合并到Analyzer

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM