[英]How to read a binary file into a vector of unsigned chars
最近我被要求编写一个函数,将二进制文件读入std::vector<BYTE>
,其中BYTE
是一个unsigned char
。 很快我就得到了这样的东西:
#include <fstream>
#include <vector>
typedef unsigned char BYTE;
std::vector<BYTE> readFile(const char* filename)
{
// open the file:
std::streampos fileSize;
std::ifstream file(filename, std::ios::binary);
// get its size:
file.seekg(0, std::ios::end);
fileSize = file.tellg();
file.seekg(0, std::ios::beg);
// read the data:
std::vector<BYTE> fileData(fileSize);
file.read((char*) &fileData[0], fileSize);
return fileData;
}
这似乎不必要地复杂,并且我在调用file.read
时被迫使用的显式转换为char*
并没有让我感觉更好。
另一种选择是使用std::istreambuf_iterator
:
std::vector<BYTE> readFile(const char* filename)
{
// open the file:
std::ifstream file(filename, std::ios::binary);
// read the data:
return std::vector<BYTE>((std::istreambuf_iterator<char>(file)),
std::istreambuf_iterator<char>());
}
这非常简单和简短,但即使我正在读入std::vector<unsigned char>
,我仍然必须使用std::istreambuf_iterator<char>
std::vector<unsigned char>
。
最后一个似乎非常简单的选项是使用std::basic_ifstream<BYTE>
,这有点明确表示“我想要一个输入文件流,我想用它来读取BYTE
s” :
std::vector<BYTE> readFile(const char* filename)
{
// open the file:
std::basic_ifstream<BYTE> file(filename, std::ios::binary);
// read the data:
return std::vector<BYTE>((std::istreambuf_iterator<BYTE>(file)),
std::istreambuf_iterator<BYTE>());
}
但我不确定在这种情况下basic_ifstream
是否是合适的选择。
将二进制文件读入vector
的最佳方法是什么? 我还想知道“幕后”发生了什么以及我可能遇到的可能问题是什么(除了流没有被正确打开,这可以通过简单的is_open
检查来避免)。
有什么好的理由让人们更喜欢在这里使用std::istreambuf_iterator
吗?
(我能看到的唯一优点是简单)
在测试性能时,我会包含一个测试用例:
std::vector<BYTE> readFile(const char* filename)
{
// open the file:
std::ifstream file(filename, std::ios::binary);
// Stop eating new lines in binary mode!!!
file.unsetf(std::ios::skipws);
// get its size:
std::streampos fileSize;
file.seekg(0, std::ios::end);
fileSize = file.tellg();
file.seekg(0, std::ios::beg);
// reserve capacity
std::vector<BYTE> vec;
vec.reserve(fileSize);
// read the data:
vec.insert(vec.begin(),
std::istream_iterator<BYTE>(file),
std::istream_iterator<BYTE>());
return vec;
}
我的想法是方法1的构造函数接触vector
的元素,然后read
再次触及每个元素。
方法2和方法3看起来最有希望,但可能遭受一个或多个resize
。 因此在阅读或插入之前reserve
的原因。
我也会测试std::copy
:
...
std::vector<byte> vec;
vec.reserve(fileSize);
std::copy(std::istream_iterator<BYTE>(file),
std::istream_iterator<BYTE>(),
std::back_inserter(vec));
最后,我认为最好的解决方案将避免operator >>
来自istream_iterator
(以及来自operator >>
所有开销和优点)试图解释二进制数据)。 但我不知道如何使用它可以直接将数据复制到矢量中。
最后,我使用二进制数据进行的测试显示ios::binary
没有得到尊重。 因此,来自<iomanip>
noskipws
的原因。
std::ifstream stream("mona-lisa.raw", std::ios::in | std::ios::binary);
std::vector<uint8_t> contents((std::istreambuf_iterator<char>(stream)), std::istreambuf_iterator<char>());
for(auto i: contents) {
int value = i;
std::cout << "data: " << value << std::endl;
}
std::cout << "file size: " << contents.size() << std::endl;
由于您要将整个文件加载到内存中,因此最佳版本是将文件映射到内存中。 这是因为内核无论如何都要将文件加载到内核页面缓存中,并通过映射文件将缓存中的那些页面暴露到您的进程中。 也称为零拷贝。
当你使用std::vector<>
它会将数据从内核页面缓存复制到std::vector<>
,当你只想读取文件时这是不必要的。
此外,当将两个输入迭代器传递给std::vector<>
它会在读取时增大其缓冲区,因为它不知道文件大小。 当首先将std::vector<>
大小调整为文件大小时,它会不必要地将其内容清零,因为无论如何它都会被文件数据覆盖。 这两种方法在空间和时间方面都是次优的。
我原以为第一种方法,使用大小并使用stream::read()
将是最有效的。 铸造到char *
的“成本”很可能是零 - 这种类型的演员只是告诉编译器“嘿,我知道你认为这是一个不同的类型,但我真的想要这种类型......”,并且不添加任何额外的指令 - 如果您想确认这一点,请尝试将文件读入char数组,并比较实际的汇编代码。 除了一些额外的工作来计算向量内的缓冲区的地址,应该没有任何区别。
与往常一样,唯一可以确保在您的情况下最有效的方法是测量它。 “在互联网上询问”并不是证明。
下面的类通过二进制文件加载和保存扩展了向量。 我已经多次返回这个问题,所以这是我下一次返回的代码 - 以及接下来将寻找二进制文件保存方法的所有其他人。 :)
#include <cinttypes>
#include <fstream>
#include <vector>
class FileVector : public std::vector<uint8_t>
{
public:
using std::vector<uint8_t>::vector;
void loadFromFile(const char *filename)
{
std::ifstream file(filename, std::ios::in | std::ios::binary);
insert(begin(),
std::istream_iterator<uint8_t>(file),
std::istream_iterator<uint8_t>());
}
void saveTofile(const char *filename) const
{
std::ofstream file(filename, std::ios::out | std::ios::binary);
file.write((const char *) data(), size());
file.close();
}
};
注意:对于负载优化,请考虑确定文件大小并预先分配所需空间,如此处其他评论中所述。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.