[英]Lucene Indexing with Semantics
我正在使用Lucene的Term Freq向量來計算文檔之間的余弦相似度,說我的文檔具有這3個術語:“欠”,“欠”,“欠”。 Lucene將其視為3個單獨的術語,但其中3個意味着相同的“欠”。 Lucene中是否有任何可用於語義索引的功能? 以便將“欠”,“欠”,“欠”作為一個詞“欠”索引,其詞頻為3?
如果我不歡迎任何建議完成此任務?
您可以將SnowballFilter與EnglishStemmer一起使用。 它將用根動詞替換這些動詞(在您的示例中為owe或ow )。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.