使用python os walk解壓縮30,000個子文件夾中的bz2文件？

Question

我有30,000個文件夾，每個文件夾包含5個bz2文件的json數據。

我正在嘗試使用os.walk（）遍歷文件路徑並解壓縮每個壓縮文件並保存在原始目錄中。

import os
import bz2

path = "/Users/mac/PycharmProjects/OSwalk/Data"
for(dirpath,dirnames,files) in os.walk(path):

for filename in files:
    filepath = os.path.join(dirpath , filename)
     newfilepath = os.path.join(dirpath , filename + '.decompressed')

        with open(newfilepath , 'wb') as new_file , 
          bz2.BZ2File(filepath , 'rb') as file:

              for data in iter(lambda: file.read(100 * 1024) , b''):
                  new_file.write(data)

我在運行代碼時遇到以下錯誤。

File 
"/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/_compr 
ession.py", line 103, in read
data = self._decompressor.decompress(rawblock, size)
OSError: Invalid data stream

我已經讀過，在Mac上使用decompressor方法運行代碼可能會出現問題，或者我還缺少其他東西嗎？

Answer 1

看來您可能正在嘗試解壓縮已經解壓縮的結果。 您應該將它們過濾掉。

import os
import bz2

path = "/Users/mac/PycharmProjects/OSwalk/Data"
for (dirpath, dirnames, files) in os.walk(path):
    for filename in files:
        # filter out decompressed files
        if filename.endswith('.decompressed'):
            continue

        filepath = os.path.join(dirpath, filename)
        newfilepath = os.path.join(dirpath, filename + '.decompressed')

        with open(newfilepath, 'wb') as new_file,
            bz2.BZ2File(filepath, 'rb') as file:

            for data in iter(lambda: file.read(100 * 1024), b''):
                new_file.write(data)

使用python os walk解壓縮30,000個子文件夾中的bz2文件？

問題描述

1 個解決方案

解決方案1
0 2017-12-07 23:16:01

使用python os walk解壓縮30,000個子文件夾中的bz2文件？

問題描述

1 個解決方案

解決方案1 0 2017-12-07 23:16:01

解決方案1
0 2017-12-07 23:16:01