繁体 English 中英

如何为快速搜索索引文件？

[英]How do you Index Files for Fast Searches?

原文 2009-05-09 23:07:14 5 3 algorithm/ search/ indexing

如今，微软和谷歌将索引你硬盘上的文件，以便你可以快速搜索他们的内容。

我想知道的是他们是如何做到的？ 你能描述算法吗？

3 个解决方案

简单的情况是倒排索引。

最基本的算法很简单：

扫描文件中的单词，创建一个唯一单词列表
规范化并过滤单词
将该单词与索引中的文件绑定

事情变得棘手，但基本原理是相同的。

通过“规范化和过滤”这些词，我的意思是将所有内容转换为小写，删除常见的“停用词”（if，if，in等），可能是“词干”（删除动词和复数的常用后缀等））。

之后，您将获得该文件的唯一单词列表，您可以构建索引。

存在用于减少存储的优化，用于检查单词的局部性的技术（例如，文档中“此”附近的“此”）。

但是，这是它的基本方式。

这是一个非常基本的描述; 有关详细信息，请阅读本教材（免费在线）： http ： //informationretrieval.org/¹

1）。 对于所有文件，请创建索引。 索引由数据集中出现的所有唯一单词组成（称为“语料库”）。 每个单词都与文档ID列表相关联; 每个文档id指的是包含该单词的文档。

变化：有时当您生成索引时，您要忽略停用词（“a”，“the”等）。 但是你必须要小心（“成为或不成为”是一个由停用词组成的真实查询）。

有时你也会说出这些话。 这对使用后缀和前缀的非英语语言的搜索质量有更大的影响。

2）当用户输入查询时，查找相应的列表并合并它们。 如果它是一个严格的布尔查询，那么该过程非常简单 - 对于AND，docid必须出现在所有单词列表中，对于OR，至少一个单词列表等。

3）如果你想对你的结果进行排名，有很多方法可以做到这一点，但基本的想法是使用文档中出现单词的频率，与你期望在任何单词中出现的频率进行比较。语料库中的文档，作为文档或多或少相关的信号。 见教科书。

4）您还可以存储单词位置以推断短语等。

其中大部分与桌面搜索无关，因为您对召回（包括该术语的所有文档）比对排名更感兴趣。

¹之前在http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html上，可通过回击机访问

你总是可以看一下像Apache Lucene这样的东西。

Apache Lucene是一个完全用Java编写的高性能，功能齐全的文本搜索引擎库。 它是一种适用于几乎所有需要全文搜索的应用程序的技术，尤其是跨平台搜索。

你究竟如何计算快速傅立叶变换？

[英]How exactly do you compute the Fast Fourier Transform?

您如何证明或说明快速合并排序是一种不稳定的算法？

[英]How do you prove or illustrate that fast merge sort is an unstable algorithm?

对两个索引同步（配对）的数组进行排序时，如何维护索引？

[英]How do you maintain an index when you sort two index synced (paired) arrays?

“包含字符串”的快速索引

[英]fast index for “contains string”

如何快速识别巨大的二进制数据中1（索引）的连续范围？

[英]How to fast identify contiguous range of 1’s(Index) in huge binary data?

在Python中，如何在排序列表中找到大于阈值的第一个值的索引？

[英]In Python, how do you find the index of the first value greater than a threshold in a sorted list?

如果没有 AVX2 指令中的快速收集和分散，您会怎么做？

[英]What do you do without fast gather and scatter in AVX2 instructions?

如何快速找到2个几乎完全相同的文件之间的差异？

[英]How to find differences between 2 almost-identical files very fast?

寻找有效的数据结构以进行快速搜索

[英]looking for an efficient data structure to do a quick searches

快速插入矩形的空间索引

[英]Spatial Index for Rectangles With Fast Insert

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 你究竟如何计算快速傅立叶变换？您如何证明或说明快速合并排序是一种不稳定的算法？对两个索引同步（配对）的数组进行排序时，如何维护索引？ “包含字符串”的快速索引如何快速识别巨大的二进制数据中1（索引）的连续范围？在Python中，如何在排序列表中找到大于阈值的第一个值的索引？如果没有 AVX2 指令中的快速收集和分散，您会怎么做？如何快速找到2个几乎完全相同的文件之间的差异？寻找有效的数据结构以进行快速搜索快速插入矩形的空间索引

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM