如何使用python逐塊解壓縮多個文件.gz

Question

我試圖在下載過程中解壓縮非常大的.gz文件（commoncrawl Web提取），但是zlib在第一個文件（該文件似乎是許多串聯的gz文件）之后停止。

import requests,json,zlib
fn="crawl-data/CC-MAIN-2017-04/segments/1484560279933.49/warc/CC-MAIN-20170116095119-00381-ip-10-171-10-70.ec2.internal.warc.gz"
fn="https://commoncrawl.s3.amazonaws.com/"+fn
r = requests.get(fn, stream=True)
d = zlib.decompressobj(zlib.MAX_WBITS | 16)
for chunk in r.iter_content(chunk_size=2048):
    if chunk:
        outstr = d.decompress(chunk)
        print(len(chunk),chunk[:10].hex(),len(outstr),len(d.unused_data))

所有塊都進入“ unused_data”並且不解壓縮，只有第一個。

當管道輸送到zcat時，它的效果很好：

curl https://commoncrawl.s3... | zcat | ....

Answer 1

您幾乎給了自己的問題答案。 您正在處理用gzip流的連接（這本身就是一個有效的gzip流），所以當你得到eof從解壓的對象，你需要啟動一個新的decompressobj每個使用unused_data您從最后一個注意到開始下一個。

如何使用python逐塊解壓縮多個文件.gz

問題描述

1 個解決方案

解決方案1
2 已采納 2017-03-05 16:04:04

如何使用python逐塊解壓縮多個文件.gz

問題描述

1 個解決方案

解決方案1 2 已采納 2017-03-05 16:04:04

解決方案1
2 已采納 2017-03-05 16:04:04