繁体   English   中英

强制或增强胡萝卜2聚类标签中的单词

[英]Force or boost words in carrot2 clustering labels

我正在使用Carrot2对来自Solr的查询结果进行聚类。 是否可以在Lingo,STC或k-means中强制(或至少增强)标签中某些单词的出现?

使用Lingo,使用“标题增强字词”选项已经可以实现,该选项可以使文档标题中出现的单词更加重要。 可以扩展到我可以提供的其他字词吗?

我想至少应该在“ Title word boost”选项所采用的字符串后附加所需的单词,以使单词boost起作用,但这也许不是正确的方法。

怎么做呢?

当前,在API中没有公开增强任意单词的可能性,因此只能提升标题中包含的单词。

执行提升的代码在:

https://github.com/carrot2/carrot2/blob/master/core/carrot2-util-text/src/org/carrot2/text/vsm/TermDocumentMatrixBuilder.java#L159

您可以添加另一个属性,例如,以逗号分隔的单词列表并增强它们。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM