繁体 English 中英

如何有效地在大二进制文件中搜索模式

[英]How to search pattern in big binary files efficiently

原文 2019-12-12 14:51:24 3 1 python/ algorithm/ search/ binaryfiles

我有几个二进制文件，它们大多大于10GB 。 在这个文件中，我想用Python找到模式，即模式0x01 0x02 0x03和0xF1 0xF2 0xF3之间的数据。

我的问题：我知道如何处理二进制数据或如何使用搜索算法，但是由于文件的大小，首先完全读取文件的效率非常低。 这就是为什么我认为按块读取文件并在块内搜索模式是明智的。

我的目标：我想让Python确定找到的模式的位置（开始和停止）。 有没有一种特殊的算法或者甚至一个Python library可以用来解决这个问题？

1 个解决方案

在大文件中搜索模式时，常用的方法是将文件按块读取到一个缓冲区中，该缓冲区的大小为读取缓冲区的大小 + 模式的大小 - 1。

在第一次读取时，您只在读取缓冲区中搜索模式，然后从缓冲区的末尾重复将 size_of_pattern-1 个字符复制到开头，然后读取一个新块并在整个缓冲区中搜索。 这样，您一定会找到模式的任何出现，即使它从一个块开始并在下一个块中结束。

如何使用二进制搜索来搜索大量名称

[英]how to search a big array of names using binary search

有效地解析大型XML文件

[英]Parsing big XML files efficiently

python：二进制文件的正则表达式搜索模式（半个字节）

[英]python: regular expression search pattern for binary files (half a byte)

如何尽可能高效地合并多个二进制文件？

[英]How do I merge many binary files as efficiently as possible?

如何搜索文件特定的XML代码模式

[英]How to search files specific XML code pattern

如何在许多文件中一次有效地搜索多个字符串？

[英]How can I efficiently search for many strings at once in many files?

如何有效地创建具有特定 1 和 0 模式的二进制矩阵？

[英]How do I create binary matrix with specific pattern of 1s and 0s efficiently?

在python中高效处理大型二进制文件

[英]Efficiently processing large binary files in python

在python中读取二进制大字节序文件

[英]Reading binary big endian files in python

如何在python中高效加载大文本文件

[英]How to load a big text file efficiently in python

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用二进制搜索来搜索大量名称有效地解析大型XML文件 python：二进制文件的正则表达式搜索模式（半个字节）如何尽可能高效地合并多个二进制文件？如何搜索文件特定的XML代码模式如何在许多文件中一次有效地搜索多个字符串？如何有效地创建具有特定 1 和 0 模式的二进制矩阵？在python中高效处理大型二进制文件在python中读取二进制大字节序文件如何在python中高效加载大文本文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM