繁体 English 中英

全文搜索得分相关性分析

[英]fulltext search score relevancy analysis

原文 2012-07-10 18:17:50 7 1 php/ mysql/ full-text-search/ statistics

我在尝试实现全文搜索时遇到了问题。 对我而言，接下来就像数学/统计学一样。 从数据库中提取的数据是书名，因此查询返回的分数可能具有非常接近的值（例如：9.98; 9.97; 9.78 - 这些都是非常相关的结果）或广泛传播（例如：9.99; 8.2; 2.1 - 前两个相关，第三个是噪音）。 我无法弄清楚如何操纵查询结果来删除不相关的。 标准偏差不起作用，因为它在我的第一个例子中过滤了良好的结果，各种标准化方法将省略相关结果或包含不相关。 请问任何想法或想法。

谢谢。 胜利者

1 个解决方案

我只是在研究一个类似这样的问题，但是基于时间的数据而不是全文。 我发现68-95-99.7规则，其中指出在真正的钟形曲线中，大约95％的结果在平均值的2个标准偏差内。 我掌握了这些知识并决定将5％的结果作为异常值抛弃。 您也可以这样做 - 省略5％的相关性得分最低的全文结果。

另一种选择可能是选择某个阈值相关性分数，或者您想要显示的某个最小数量的结果。 或两者兼而有之 - 您可以根据任何标准显示更多结果。