python列表列表的内存消耗

Question

我最近正在研究的一个代码被发现使用大约200MB的内存来运行，我很难过为什么它需要这么多。

基本上它将一个文本文件映射到一个列表中，其中文件中的每个字符都是它自己的列表，其中包含该字符以及它到目前为止（从零开始）显示为两个项目的频率。

所以'abbac...'会是[['a','0'],['b','0'],['b','1'],['a','1'],['c','0'],...]

对于长度为100万个字符的文本文件，它使用了200MB。

这是合理的还是我的代码正在做的其他事情？ 如果它是合理的，是不是因为列表数量很多？ [a,0,b,0,b,1,a,1,c,0...]会占用更少的空间吗？

Answer 1

如果您不需要列表本身，那么我完全赞同@ Lattyware使用生成器的解决方案。

但是，如果这不是一个选项，那么您可以通过仅存储文件中每个字符的位置来压缩列表中的数据而不会丢失信息。

import random
import string

def track_char(s):
    # Make sure all characters have the same case
    s = s.lower()
    d = dict((k, []) for k in set(s))
    for position, char in enumerate(s):
         d[char].append(position)
    return d

st = ''.join(random.choice(string.ascii_uppercase) for _ in range(50000))
d = track_char(st)

len(d["a"])

# Total number of occurrences of character 2
for char, vals in d.items():
    if 2 in vals:
         print("Character %s has %s occurrences" % (char,len(d[char]))
Character C has 1878 occurrences

# Number of occurrences of character 2 so far
for char, vals in d.items():
    if 2 in vals:
        print("Character %s has %s occurrences so far" % (char, len([x for x in d[char] if x <= 2))
Character C has 1 occurrences so far

这样，每次出现时都不需要复制字符串，并且可以保留所有出现的信息。

要比较原始列表或此方法的对象大小，这是一个测试

import random
import string
from sys import getsizeof

# random generation of a string with 50k characters
st = ''.join(random.choice(string.ascii_uppercase) for _ in range(50000))

# Function that returns the original list for this string
def original_track(s):
    l = []
    for position, char in enumerate(s):
        l.append([char, position])
    return l

# Testing sizes
original_list = original_track(st)
dict_format = track_char(st)

getsizeof(original_list)
406496
getsizeof(dict_format)
1632

如您所见，dict_format的大小约为250倍。 然而，这种尺寸差异应该在更大的字符串中更明显。

Answer 2

在内存使用和列表方面，减少内存使用的最佳方法之一就是完全避免使用列表 - Python以生成器的形式支持迭代器。 如果你可以生成一个生成器而不是构建一个列表，你应该可以用很少的内存使用来做这样的事情。 当然，这取决于你之后对数据做了什么（比如说你把这个结构写到文件中，你可以一块一块地做，而不是一次性存储整个文件）。

from collections import Counter

def charactersWithCounts():
    seen = Counter()
    for character in data:
        yield (character, seen[character])
        seen[character] += 1

python列表列表的内存消耗

问题描述

2 个解决方案

解决方案1
2 已采纳 2015-04-28 14:06:17

解决方案2
1 2015-04-28 13:51:29

python列表列表的内存消耗

问题描述

2 个解决方案

解决方案1 2 已采纳 2015-04-28 14:06:17

解决方案2 1 2015-04-28 13:51:29

解决方案1
2 已采纳 2015-04-28 14:06:17

解决方案2
1 2015-04-28 13:51:29