簡體   English   中英

Lucene語義索引

[英]Lucene Indexing with Semantics

我正在使用Lucene的Term Freq向量來計算文檔之間的余弦相似度,說我的文檔具有這3個術語:“欠”,“欠”,“欠”。 Lucene將其視為3個單獨的術語,但其中3個意味着相同的“欠”。 Lucene中是否有任何可用於語義索引的功能? 以便將“欠”,“欠”,“欠”作為一個詞“欠”索引,其詞頻為3?

如果我不歡迎任何建議完成此任務?

您可以將SnowballFilter與EnglishStemmer一起使用。 它將用根動詞替換這些動詞(在您的示例中為oweow )。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM