[英]Tokenize a string using apache lucene
如何基于模式标记字符串?
例。 在以下字符串中
arg1:aaa,bbb AND arg2:ccc OR arg3:ddd,eee,fff
首先,我想基于AND和OR进行标记化
所以
Token set 1 arg1:aaa,bbb
Token set 2 arg2:ccc
Token set 3 arg3:ddd,eee,fff
稍后,我想将这些单独的令牌集传递给方法并基于“:”进行令牌化
Token set 1
Token 1 aaa
Token 2 bbb
Token set 2
Token 1 ccc
Token set 3
Token 1 ddd
Token 2 eee
Token 3 fff
如何使用Lucene使用自定义模式来标记化?
要执行自定义标记化实现,通常需要实现自己的Tokenizer
。 需要实现的主要方法是TokenStream.incrementToken()
。
然后可以将您的Tokenizer
器合并到Analyzer
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.