繁体   English   中英

全文搜索得分相关性分析

[英]fulltext search score relevancy analysis

我在尝试实现全文搜索时遇到了问题。 对我而言,接下来就像数学/统计学一样。 从数据库中提取的数据是书名,因此查询返回的分数可能具有非常接近的值(例如:9.98; 9.97; 9.78 - 这些都是非常相关的结果)或广泛传播(例如:9.99; 8.2; 2.1 - 前两个相关,第三个是噪音)。 我无法弄清楚如何操纵查询结果来删除不相关的。 标准偏差不起作用,因为它在我的第一个例子中过滤了良好的结果,各种标准化方法将省略相关结果或包含不相关。 请问任何想法或想法。

谢谢。 胜利者

我只是在研究一个类似这样的问题,但是基于时间的数据而不是全文。 我发现68-95-99.7规则 ,其中指出在真正的钟形曲线中,大约95%的结果在平均值的2个标准偏差内。 我掌握了这些知识并决定将5%的结果作为异常值抛弃。 您也可以这样做 - 省略5%的相关性得分最低的全文结果。

另一种选择可能是选择某个阈值相关性分数,或者您想要显示的某个最小数量的结果。 或两者兼而有之 - 您可以根据任何标准显示更多结果。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM