繁体   English   中英

寻找印尼语词干

[英]looking for indonesian language stemmer

我正在Java应用程序中处理一些印尼文本,我需要阻止它们。

目前我正在使用lucene indonesian stemmer。 org.apache.lucene.analysis.id.IndonesianAnalyzer;

但结果并不理想。

有谁能建议我不同的词干?

“enang”是一个词干。 茎不一定是实际的词。 例如,在英语中,“争辩”“争论”和“争论”减少到词干“论证”。 “争论”不是一个英语单词,但它是一个有意义的词干。 这就是限制器的工作原理。 只要您以相同的方式将词干分析器应用于索引数据和查询,它就应该可以正常工作。

如果您不想要这样的行为,那么根本不使用词干分析器是没有任何意义的。

除了词干分析器,印尼分析仪相当容易复制。 这是其他组件只是涉及StandardTokenizerStandardFilterLowercaseAnalyzerStopFilter 这只是一个带有印度尼西亚禁用词集的StandardAnalyzer ,当你接下来时,你可以创建一个没有词干分析器的印尼分析器,就像:

//If you are using the default stopword location defined in the IndonesianAnalyzer you could load them like this.
CharArraySet defaultStopSet = StopwordAnalyzerBaseloadStopwordSet(false, IndonesianAnalyzer.class, IndonesianAnalyzer.DEFAULT_STOPWORD_FILE, "#");
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43, defaultStopSet);

我不确定你是否会在将默认停用词文件中的读者传递给StandardAnalyzer构造函数时遇到问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM