繁体   English   中英

lucene / solr 删除常用词组(停用词组)

[英]lucene / solr remove common phrases (stop phrases)

我想从搜索查询中删除对查询没有意义的单词/短语(我们可以称它们为停用词)。 例子:

“如何..”

“我在哪里可以找到……”

“是什么意思..”

等等

  1. 在哪里可以找到/如何计算英语和法语的“常用短语”列表?

  2. 如何在 Solr 中实现它(有什么比停用词功能更高级的吗?)

我认为你不应该试图完全摆脱这些短语,因为它们揭示了搜索者的意图。 您可以尝试通过使用像Ephyra这样的自然语言问答系统来利用它们的存在。 甚至还有一个旨在将其与 Lucene 集成的项目 我自己没有使用过它,但也许至少评估它值得一试。

如果您决定删除它们,那么我认为您需要编写自定义QueryParser来过滤查询,将进一步的处理委托给您选择的解析器。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM