[英]lucene / solr remove common phrases (stop phrases)
我想从搜索查询中删除对查询没有意义的单词/短语(我们可以称它们为停用词)。 例子:
“如何..”
“我在哪里可以找到……”
“是什么意思..”
等等
在哪里可以找到/如何计算英语和法语的“常用短语”列表?
如何在 Solr 中实现它(有什么比停用词功能更高级的吗?)
我认为你不应该试图完全摆脱这些短语,因为它们揭示了搜索者的意图。 您可以尝试通过使用像Ephyra这样的自然语言问答系统来利用它们的存在。 甚至还有一个旨在将其与 Lucene 集成的项目。 我自己没有使用过它,但也许至少评估它值得一试。
如果您决定删除它们,那么我认为您需要编写自定义QueryParser来过滤查询,将进一步的处理委托给您选择的解析器。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.