處理文件時內存錯誤Python

Question

我有一個備份硬盤驅動器，我知道有重復的文件分散在我周圍，我認為這是一個有趣的項目，寫一個小的python腳本來找到它們並刪除它們。 我編寫以下代碼只是為了遍歷驅動器並計算每個文件的md5總和，並將其與我將稱之為“第一次遇到”列表的內容進行比較。 如果md5總和尚不存在，則將其添加到列表中。 如果總和已存在，則刪除當前文件。

import sys
import os
import hashlib

def checkFile(fileHashMap, file):
    fReader = open(file)
    fileData = fReader.read();
    fReader.close()
    fileHash = hashlib.md5(fileData).hexdigest()
    del fileData

    if fileHash in fileHashMap:
        ### Duplicate file.
        fileHashMap[fileHash].append(file)
        return True
    else:
        fileHashMap[fileHash] = [file]
        return False


def main(argv):
    fileHashMap = {}
    fileCount = 0
    for curDir, subDirs, files in os.walk(argv[1]):
        print(curDir)
        for file in files:
            fileCount += 1
            print("------------: " + str(fileCount))
            print(curDir + file)
            checkFile(fileHashMap, curDir + file)

if __name__ == "__main__":
    main(sys.argv)

該腳本處理大約10Gb的文件，然后在'fileData = fReader.read（）'行上拋出MemoryError。 我認為，因為我在關閉fReader並在計算md5總和后將fileData標記為刪除，所以我不會遇到這個問題。 如何在不遇到此內存錯誤的情況下計算md5總和？

編輯：我被要求刪除字典並查看內存使用情況，以查看hashlib中是否存在泄漏。 這是我運行的代碼。

import sys
import os
import hashlib

def checkFile(file):
    fReader = open(file)
    fileData = fReader.read();
    fReader.close()
    fileHash = hashlib.md5(fileData).hexdigest()
    del fileData

def main(argv):
    for curDir, subDirs, files in os.walk(argv[1]):
        print(curDir)
        for file in files:
            print("------: " + str(curDir + file))
            checkFile(curDir + file)

if __name__ == "__main__":
    main(sys.argv)

我仍然得到內存崩潰。

Answer 1

你的問題在於讀取整個文件，它們太大而你的系統無法將它全部加載到內存中，因此它會拋出錯誤。

正如您在官方Python文檔中看到的， MemoryError是：

當操作耗盡內存時引發但情況仍可能被挽救（通過刪除一些對象）。 關聯值是一個字符串，表示內存中耗盡了哪種（內部）操作。 請注意，由於底層內存管理體系結構（C的malloc（）函數）， 解釋器可能無法始終從這種情況中完全恢復 ; 然而，它會引發異常，以便可以打印堆棧回溯，以防出現失控程序。

為了您的目的，您可以使用hashlib.md5()

在這種情況下，您必須按順序讀取4096字節的塊並將它們提供給Md5函數：

def md5(fname):
    hash = hashlib.md5()
    with open(fname) as f:
        for chunk in iter(lambda: f.read(4096), ""):
            hash.update(chunk)
    return hash.hexdigest()

Answer 2

不是您的內存問題的解決方案，而是可以避免它的優化：

小文件：計算md5總和，刪除重復項
大文件：記住大小和路徑
最后，當有多個文件時，只計算相同大小的文件的md5sums

Python的collection.defaultdict可能對此有用。

Answer 3

如何從python中調用openssl命令在Windows和Linux中

$ openssl md5“文件”

處理文件時內存錯誤Python

問題描述

3 個解決方案

解決方案1
4 已采納 2015-09-07 16:20:32

解決方案2
1 2015-09-07 17:29:38

解決方案3
0 2018-09-14 17:47:57

處理文件時內存錯誤Python

問題描述

3 個解決方案

解決方案1 4 已采納 2015-09-07 16:20:32

解決方案2 1 2015-09-07 17:29:38

解決方案3 0 2018-09-14 17:47:57

解決方案1
4 已采納 2015-09-07 16:20:32

解決方案2
1 2015-09-07 17:29:38

解決方案3
0 2018-09-14 17:47:57