繁体 English 中英

减少大量二进制文件从硬盘读取访问时间的替代方法

[英]Alternative to reduce large number of binary files reading access time from hard disk

原文 2012-12-17 18:52:25 4 3 c/ database-design

在我的第一个应用程序原型中，我必须依次从硬盘读取大约40万个文件（每个4KB文件，总共约1.5 GB数据），并对从每个文件读取的数据进行一些操作，然后将结果存储在RAM中。 通过这种机制，我首先访问一个文件的I / O，然后利用CPU进行操作，然后继续访问另一个文件，但这过程非常缓慢。

要变通，现在我们首先读取所有文件，并将所有文件数据存储在RAM中，然后进行操作（利用CPU）。 它带来了显着的进步。

但是在开发的第二阶段，我必须读取20 GB的数据，现在我无法将其存储在RAM中。 而且，具有CPU利用率的单次读取操作非常耗时。

有人可以提出一些解决此问题的方法吗？

我正在Windows中使用Visual Studio编译器开发此应用程序。

3 个解决方案

有一种称为异步I / O（AIO）的技术，可让您在后台读取文件的同时继续对CPU进行一些处理。 您可以使用它在处理文件的同时读取接下来的几个文件。

各种AIO调用是特定于OS的。 在Windows上，Microsoft将其称为“重叠的I / O”。 请参阅此Wikipedia页面或此MSDN页面以获取更多信息。

要变通，现在我们首先读取所有文件，并将所有文件数据存储在RAM中，然后进行操作（利用CPU）。

（假设文件可以独立处理...）

你在那儿。 无需等待所有文件都已加载到RAM，而是在加载任何文件后立即开始处理。 那将是流水线的一种形式。

您将需要三个组件：

读取文件的线程¹ （“生产者”）。
线程²处理文件（“消费者”）。
它们之间的消息队列³ 。

生产者以您已经在执行的方式读取文件，但是不处理它们，只是将它们排队到消息队列中。 使用者线程等待，直到它可以从队列中取出文件，对其进行处理，然后立即释放该文件已占用的内存，并继续等待队列。

如果可以通过从头到尾依次遍历它们来处理文件，则您甚至可以设计出更细粒度的“流”，在其中以块的形式读取和处理文件，这可以进一步降低峰值内存消耗（例如，如果您有一些超大文件，它们不再需要在内存中完整保存。

¹或一组线程，用于并行化I / O（如果您预期从多个物理磁盘读取）。

²如果处理文件并不比读取文件便宜，则使用一组线程使CPU内核饱和。

³您不需要花哨的持久性分布式消息队列。 只是一个直接的内存队列，.NET中的a-la BlockingCollection （我相信您会在纯C语言中找到类似的东西）。

创建线程（循环）以将文件读入RAM。
处理RAM中单独线程中的数据，并在处理后释放RAM。
在互斥对象保护下，对共享对象中的文件（已读和已处理）进行限制和记录轮询。
将信号量用于资源（RAM中的文件）生产/利用同步。

在C中写入文件时减少磁盘访问次数

[英]Reduce number of disk access while writing to file in C

从Linux上的C程序直接访问没有FS的硬盘

[英]Direct access to hard disk with no FS from C program on Linux

从文件中读取二进制数并将其保存为整数

[英]Reading a binary number from a file and saving it as an integer

使用硬盘进行快速访问以替换RAM

[英]Using hard disk for fast access replacing RAM

Linux：stat将访问Hard Disk进行操作

[英]Linux : Will stat access Hard Disk for its operation

递归获取硬盘中的所有文件

[英]Recursively get all files in a hard disk

从二进制文件中读取和显示时间戳

[英]Reading and displaying time stamp from a binary file

Linux：直接访问C中的硬盘

[英]Linux: direct access to the hard-disk in C

从二进制文件一次读取2个字节

[英]Reading 2 byte at a time from a binary file

大量二进制

[英]Large number in binary

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在C中写入文件时减少磁盘访问次数从Linux上的C程序直接访问没有FS的硬盘从文件中读取二进制数并将其保存为整数使用硬盘进行快速访问以替换RAM Linux：stat将访问Hard Disk进行操作递归获取硬盘中的所有文件从二进制文件中读取和显示时间戳 Linux：直接访问C中的硬盘从二进制文件一次读取2个字节大量二进制

相关标签

减少大量二进制文件从硬盘读取访问时间的替代方法

问题描述

3 个解决方案

解决方案1
4 2012-12-17 18:58:26

解决方案2
1 2012-12-18 12:41:38

解决方案3
0 2012-12-17 21:14:47

减少大量二进制文件从硬盘读取访问时间的替代方法

问题描述

3 个解决方案

解决方案1 4 2012-12-17 18:58:26

解决方案2 1 2012-12-18 12:41:38

解决方案3 0 2012-12-17 21:14:47

解决方案1
4 2012-12-17 18:58:26

解决方案2
1 2012-12-18 12:41:38

解决方案3
0 2012-12-17 21:14:47