繁体   English   中英

在霍夫曼压缩/解压缩中处理额外的字节

[英]Handling extra bytes in huffman compression/decompression

我有一个程序可以根据在文本输入文件中读取的ASCII字符频率生成霍夫曼树。 霍夫曼码存储在由256个元素组成的字符串数组中;如果未读取字符,则为空字符串。 然后,该程序还会对输出文件进行编码和压缩,并且目前在解压缩和解码方面具有某些功能。

总而言之,我的程序将一个输入文件压缩并编码为一个输出文件,关闭该输出文件并以输入文件的形式打开编码,并获取一个新的输出文件,该文件应具有与原始文本输入文件相同的解码消息。 。

我的问题是,在压缩时的测试运行中,我注意到我有3个额外的字节,而当我对编码文件进行解压缩和解码时,这3个额外的字节将被解码为我的输出文件。 根据原始输入文件中文本的数量,我的其他测试将输出这些额外的字节。

我的研究让我提出了一些建议,例如将编码输出文件的前8个字节设置为无符号长long的64位,以给出文件中的字节数,或者使用psuedo-EOF,但我仍然坚持如何我会去处理它,考虑到我已经编写的代码,这两种方法中哪一种是处理它的明智方法?

对此问题的任何指导或解决方案均不胜感激。

(对于encodedOutput函数,fileName是输入文件参数,fileName2是输出文件参数)

(对于decodeOutput函数,fileName2是输入文件参数,fileName 3是输出文件参数)

code [256]是这两个函数的参数,并保存原始输入文件中读取的每个唯一字符的霍夫曼代码,例如,输入文件中读取的字符“ H”可能具有代码“ 111”在将代码[72]传递给函数时存储在代码数组中。

freq [256]保存每个ASCII字符的读取频率,如果它不在原始输入文件中,则保持0。

void encodeOutput(const string & fileName, const string & fileName2, string code[256]) {
    ifstream ifile; //to read file
    ifile.open(fileName, ios::binary);
    if (!ifile)//to check if file is open or not
    {
        die("Can't read again"); // function that exits program if can't open
    }
    ofstream ofile;
    ofile.open(fileName2, ios::binary);
    if (!ofile) {
        die("Can't open encoding output file");
    }
    int read; 
    read = ifile.get(); //read one char from file and store it in int
    char buffer = 0, bit_count = 0;
    while (read != -1) {//run this loop until reached to end of file(-1)
        for (unsigned b = 0; b < code[read].size(); b++) { // loop through bits (code[read] outputs huffman code)
            buffer <<= 1;
            buffer |= code[read][b] != '0';
            bit_count++;
            if (bit_count == 8) {
                ofile << buffer;
                buffer = 0;
                bit_count = 0;
            }
        }
        read = ifile.get();
    }

    if (bit_count != 0)
        ofile << (buffer << (8 - bit_count));

    ifile.close();
    ofile.close();
}

void decodeOutput(const string & fileName2, const string & fileName3, string code[256], const unsigned long long freq[256]) {
    ifstream ifile;
    ifile.open(fileName2, ios::binary);
    if (!ifile)
    {
        die("Can't read again");
    }
    ofstream ofile;
    ofile.open(fileName3, ios::binary);
    if (!ofile) {
        die("Can't open encoding output file");
    }
    priority_queue < node > q;
    for (unsigned i = 0; i < 256; i++) {
        if (freq[i] == 0) {
            code[i] = "";
        }
    }

    for (unsigned i = 0; i < 256; i++)
        if (freq[i])
            q.push(node(unsigned(i), freq[i]));

    if (q.size() < 1) {
        die("no data");
    }

    while (q.size() > 1) {
        node *child0 = new node(q.top());
        q.pop();
        node *child1 = new node(q.top());
        q.pop();
        q.push(node(child0, child1));
    } // created the tree
    string answer = "";
    const node * temp = &q.top(); // root 
    for (int c; (c = ifile.get()) != EOF;) {
        for (unsigned p = 8; p--;) { //reading 8 bits at a time 
            if ((c >> p & 1) == '0') { // if bit is a 0
                temp = temp->child0; // go left
            }
            else { // if bit is a 1
                temp = temp->child1; // go right
            }
            if (temp->child0 == NULL && temp->child1 == NULL) // leaf node
            {
                answer += temp->value;
                temp = &q.top();
            }
        }
    }
  ofile << ans;
}

由于有完整的提升规则, (buffer << (8 - bit_count))将是一个整数表达式,导致要写入4个字节。 要只写一个字节,需要将其强制转换为char。

ofile << char(buffer << (8 - bit_count));

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM