在Python中處理文件時出現內存錯誤

Question

我打算根據每一行的密鑰將一個總共約500MB的文件讀入字典。 代碼片段如下：

f2 = open("ENST-NM-chr-name.txt", "r")   # small amount
lines = [l.strip() for l in f2.readlines() if l.strip()]
sample = dict([(l.split("\t")[2].strip("\""), l) for l in lines])    ## convert [(1,2), (3,4)] to {1:2, 3:4}

在內存為4GB的計算機上運行時，python會抱怨內存錯誤。 如果我將sample變量的評估表達式更改為[l for l in lines]則可以正常工作。

起初，我認為這是由於split方法占用了大量內存，因此我將代碼調整為：

def find_nth(haystack, needle, n):
    start = haystack.find(needle)
    while start >= 0 and n > 1:
        start = haystack.find(needle, start+len(needle))
        n -= 1
    return start

...

sample = dict([(l[find_nth(l, "\t", 4):].strip(), l) for l in lines])

但是事實證明是一樣的。

一個新的發現是，如果我刪除dict()轉換而不管代碼邏輯如何，它將在沒有OOM的情況下正常運行。

誰能給我一些關於這個問題的想法？

Answer 1

你創建了一個包含每一行，這將繼續存在，直到列表lines超出范圍，然后創建基於關閉它完全不同的字符串的另一大名單，那么dict掉的那個，才可以走出去的記憶。 只需一步就可以構建該dict 。

with open("ENST-NM-chr-name.txt") as f:
    sample = {}

    for l in f:
        l = l.strip()

        if l:
            sample[l.split("\t")[2].strip('"')] = l

通過使用生成器表達式而不是列表推導，您可以達到大致相同的效果，但是（對我而言）不strip兩次感覺更好。

Answer 2

如果將列表變成生成器，而字典變成漂亮的字典理解 ，該怎么辦：

f2 = open("ENST-NM-chr-name.txt", "r")   # small amount
lines = (l.strip() for l in f2 if l.strip())
sample = {line.split('\t')[2].strip('\"'): line for line in lines}

上面的第2 lines = (l.strip() for l in f2.readlines() if l.strip())錯誤地是lines = (l.strip() for l in f2.readlines() if l.strip())

生成器和dict理解是否可以（以某種方式）減輕內存需求？

在Python中處理文件時出現內存錯誤

問題描述

2 個解決方案

解決方案1
2 2015-04-15 03:45:18

解決方案2
1 2015-04-15 03:44:11

在Python中處理文件時出現內存錯誤

問題描述

2 個解決方案

解決方案1 2 2015-04-15 03:45:18

解決方案2 1 2015-04-15 03:44:11

解決方案1
2 2015-04-15 03:45:18

解決方案2
1 2015-04-15 03:44:11