[英]Python gzip and Java GZIPOutputStream give different results
我正在尝试在 Python 中采用 hash 的压缩字符串,并需要它与 Java 的相同。 但是 Python 的gzip
实现似乎与 Java 的GZIPOutputStream
不同。
gzip
压缩包:
import gzip
import hashlib
gzip_bytes = gzip.compress(bytes('test', 'utf-8'))
gzip_hex = gzip_bytes.hex().upper()
md5 = hashlib.md5(gzip_bytes).hexdigest().upper()
>>>gzip_hex
'1F8B0800678B186002FF2B492D2E01000C7E7FD804000000'
>>>md5
'C4C763E9A0143D36F52306CF4CCC84B8'
Java GZIPOutputStream
:
import java.io.ByteArrayOutputStream;
import java.util.zip.GZIPOutputStream;
import java.io.IOException;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
public class HelloWorld{
private static final char[] HEX_ARRAY = "0123456789ABCDEF".toCharArray();
public static String bytesToHex(byte[] bytes) {
char[] hexChars = new char[bytes.length * 2];
for (int j = 0; j < bytes.length; j++) {
int v = bytes[j] & 0xFF;
hexChars[j * 2] = HEX_ARRAY[v >>> 4];
hexChars[j * 2 + 1] = HEX_ARRAY[v & 0x0F];
}
return new String(hexChars);
}
public static String md5(byte[] bytes) {
try {
MessageDigest md = MessageDigest.getInstance("MD5");
byte[] thedigest = md.digest(bytes);
return bytesToHex(thedigest);
}
catch (NoSuchAlgorithmException e){
new RuntimeException("MD5 Failed", e);
}
return new String();
}
public static void main(String []args){
String string = "test";
final byte[] bytes = string.getBytes();
try {
final ByteArrayOutputStream bos = new ByteArrayOutputStream();
final GZIPOutputStream gout = new GZIPOutputStream(bos);
gout.write(bytes);
gout.close();
final byte[] encoded = bos.toByteArray();
System.out.println("gzip: " + bytesToHex(encoded));
System.out.println("md5: " + md5(encoded));
}
catch(IOException e) {
new RuntimeException("Failed", e);
}
}
}
印刷:
gzip: 1F8B08000000000000002B492D2E01000C7E7FD804000000
md5: 1ED3B12D0249E2565B01B146026C389D
因此,两个 gzip 字节输出似乎非常相似,但略有不同。
1F8B0800 678B186002FF 2B492D2E01000C7E7FD804000000
1F8B0800 000000000000 2B492D2E01000C7E7FD804000000
Python gzip.compress()
方法接受 0-9 范围内的compresslevel
参数。 尝试了所有这些,但没有一个给出预期的结果。 有什么方法可以在 Python 中获得与 Java 的GZIPOutputStream
相同的结果?
通常无法满足您的要求“Python 中的 gzip 字符串哈希并需要它与 Java 相同”。 你需要改变你的需求,以不同的方式实现你的需求。 我建议只要求解压缩的数据具有相同的哈希值。 事实上,两个 gzip 字符串中已经存在解压缩数据的 32 位 hash(CRC-32),它们是相同的( 0xd87f7e0c
)。 如果你想要一个更长的hash,那么你可以append一个。 最后四个字节是未压缩的长度,模 2 32 ,因此您也可以比较它们。 只需比较两个字符串的最后八个字节并检查它们是否相同。
您问题中两个 gzip 字符串之间的区别说明了这个问题。 一个在 header 中有时间戳,另一个没有(设置为零)。 即使他们都有时间戳,他们仍然很可能是不同的。 它们在 header 中也有一些其他字节不同,例如原始操作系统。
此外,您的示例中的压缩数据非常短,因此在这种情况下它恰好是相同的。 然而,对于任何合理数量的数据,两个 gzippers 生成的压缩数据将是不同的,除非它们碰巧使用完全相同的 deflate 代码、相同版本的代码以及相同的 memory 大小和压缩级别设置。 如果您无法控制所有这些,那么在给定相同的未压缩数据的情况下,您将永远无法确保从它们中输出相同的压缩数据。
简而言之,不要浪费时间尝试获得相同的压缩字符串。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.