繁体 English 中英

读取大文件的各个小块（C ++）

[英]Reading small separated chunks of a large file (C++)

原文 2017-10-17 13:40:13 3 1 c++/ file/ io/ binary/ buffer

我正在读取专有的二进制数据文件格式。 格式基本上是标头，数据，size_of_previous_data，标头，数据，size_of_previous_data，标头，数据，size_of_previous_data，...。标头的一部分包括下一个数据块的字节数及其大小，紧随其后。数据。 标头为256字节，数据通常为〜2MB，size_of_previous_data为32位int。

这些文件通常很大〜GB，而且我经常不得不在数十个文件中搜索所需的数据。 为了做到这一点，我在代码中要做的第一件事是识别每个文件，即仅读入标头并记录相关数据的位置（文件和字节号）。 我的代码基本上使用fstream :: read（）准备标头，检查数据大小，使用fstream :: seekg（）跳过数据，然后读入size_of_previous_data，然后重复直到我到达文件末尾。

我的问题是此索引编制非常缓慢。 数据位于Windows 10笔记本电脑上的内部7200 rpm硬盘驱动器上，任务管理器显示我的硬盘驱动器使用已满，但是我得到的读取速度仅为1.5 MB / s，响应时间通常> 70 ms。 我正在使用std :: fstream读取文件，并使用fstream :: get（）读取标题，并使用fstream :: seekg（）移至下一个标题。

我已经分析了我的代码，几乎整个时间都花在fstream :: read（）代码中，以读取size_of_previous_data值。 我想当我这样做时，缓冲后的数据就立即被保存了，所以我的fstream :: read（）获取下一个标头几乎不需要时间。

所以我想知道是否有一种方法可以对此进行优化？ 在任何缓冲读取中，几乎整个缓冲区都可能被浪费（如果是8kB缓冲区，则占97％）。 有没有办法缩小它，是否值得（也许底层操作系统缓冲区也以我无法改变的方式）？

1 个解决方案

假设磁盘搜索大约需要10毫秒（每个程序员都应该知道的延迟数），则您的文件为11 GB，包括2 MB块，理论上的最小运行时间为5500 * 10 ms = 55秒。

如果您已经处于这个数量级，那么加快速度的最有效方法可能就是购买SSD。

C ++分号分隔的文件读取

[英]C++ Semicolon separated file reading

在 C++ 中通过块异步保存大型二进制文件的最佳方法

[英]Best way to save a large binary file by chunks asynchronously in C++

在 C++ 中并行读取大型文本文件

[英]Reading a large text file in parallel in C++

用C ++将大文本文件读取到内存

[英]Reading a large text file to memory in C++

在C ++中读取大型映射的文本文件

[英]Reading large mapped text file in C++

C ++：使用ifstream读取大型pgm文件

[英]C++: reading large pgm file with ifstream

读取逗号分隔的txt文件为arrays C++ cpp

[英]reading a txt file separated by commas into arrays C++ cpp

C ++：将文本文件解析并读取为多个由分号分隔的数组

[英]c++: parsing and reading text file into multiple arrays separated by delimters

使用getLine在C ++中读取CSV文件中的单独列

[英]Reading separated columns in a CSV file in C++ using getLine

将文本文件读取为C ++值，并用不同的字符分隔

[英]Reading a text file into C++ values, separated by different characters

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 C ++分号分隔的文件读取在 C++ 中通过块异步保存大型二进制文件的最佳方法在 C++ 中并行读取大型文本文件用C ++将大文本文件读取到内存在C ++中读取大型映射的文本文件 C ++：使用ifstream读取大型pgm文件读取逗号分隔的txt文件为arrays C++ cpp C ++：将文本文件解析并读取为多个由分号分隔的数组使用getLine在C ++中读取CSV文件中的单独列将文本文件读取为C ++值，并用不同的字符分隔

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM