繁体 English 中英

快速搜索压缩文本文件

[英]Fast search in compressed text files

原文 2011-04-06 06:32:32 5 5 c++/ algorithm/ full-text-search/ compression/ huffman-code

我需要能够在压缩的大量文件（.txt）中搜索文本。 压缩可以改为其他东西，甚至可以变成专有的。 我想避免解压缩所有文件并压缩（编码）搜索字符串并在压缩文件中搜索。 这应该可以使用霍夫曼压缩与所有文件的相同码本。 我不想重新发明轮子，所以..任何人都知道像这样的库或者实施和测试过的霍夫曼算法，或者更好的想法？

提前致谢

5 个解决方案

大多数文本文件都是使用LZ系列算法压缩的，这些算法将字典编码器与熵编码器（如Huffman）结合在一起。

因为字典编码器依赖于不断更新的“字典”，其编码结果取决于历史（字典中从输入数据直到当前符号的所有代码），因此无法跳转到某个位置并开始解码，而不首先解码所有先前的数据。

在我看来，你可以使用一个zlib流解码器，它可以随时返回解压缩数据，而无需等待整个文件解压缩。 这不会节省执行时间，但会节省内存。

第二个建议是对英语单词进行霍夫曼编码，并忘记字典编码器部分。 每个英语单词都映射到一个唯一的无前缀代码。

最后，@ SHODAN给出了最明智的建议，即索引文件，压缩索引并捆绑压缩文本文件。 要进行搜索，只需解压缩索引文件并查找单词。 这实际上是对单词执行霍夫曼编码的改进 - 一旦找到单词的频率（为了最佳地分配前缀代码），您已经构建了索引，因此您可以保留索引以进行搜索。

您不太可能在压缩文件中搜索未压缩的字符串。 我猜你最好的选择之一是以某种方式索引文件。 或许使用Lucene？

在压缩文件中搜索文本比在未压缩文本文件中搜索相同内容要快。

我见过的一种压缩技术为了快速搜索而牺牲了一些空间：

维护一个字典，其中包含文本中每个单词的2 ^ 16个条目。 保留文字字节的前256个条目，以防你遇到一个不在字典中的单词 - 即使许多大文本的单个字少于32,000个，所以它们永远不需要使用这些字面字节。
通过将16位字典索引替换为每个单词来压缩原始文本。
（可选）在正常情况下，两个单词由单个空格字符分隔，丢弃该空格字符; 否则将单词之间的字符串中的所有字节放入字典中作为特殊的“单词”（例如，“。”和“，”和“\\ n”）标记为“无默认空格”属性，然后“压缩” “用相应的字典索引替换它们的那些字符串。
通过以相同方式压缩短语来搜索单词或短语，并在压缩文本中搜索压缩的字节串，其方式与在原始文本中搜索原始字符串的方式完全相同。