[英]size of generator object in python
对于以下代码:
import sys
x=(i for i in range(1,11))
print x
print 'Before starting iterating generator size is' ,sys.getsizeof(x)
print 'For first time'
for i in x:
print i
print 'For second time , does not print anything'
for i in x:
print i # does not print anything
print 'After iterating generator size is' ,sys.getsizeof(x)
输出是:
<generator object <genexpr> at 0x014C1A80>
Before starting iterating generator size is 40
For first time
1
2
3
4
5
6
7
8
9
10
For second time
After iterating generator size is 40
生成器对象的大小最初是40,当我完成迭代时它仍然是40.但是没有元素从第二个循环引用。
为什么生成器对象在创建时会占用相同的内存,并且在完成迭代时会占用相同的内存?
发电机在内存中占用的空间只是簿记信息 。 其中保留了对框架对象的引用(管理正在运行的Python代码,例如本地代码),现在它正在运行,并保留对代码对象的引用。 而已:
>>> x=(i for i in range(1,11))
>>> dir(x)
['__class__', '__delattr__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__iter__', '__name__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'next', 'send', 'throw']
>>> x.gi_frame
<frame object at 0x1053b4ad0>
>>> x.gi_running
0
>>> x.gi_code
<code object <genexpr> at 0x1051af5b0, file "<stdin>", line 1>
这只是3个引用,加上通常的Python对象类型信息(思考引用计数)和弱引用列表; 这是大约4个指针,一个整数和一个结构,在你的系统上占用40个字节(在我的系统上,64位OS X,它是80个字节)。 sys.getsizeof()
上只是结构的大小作为报告用C实现的,它不递归超过指针。
因此,当您运行生成器时,该内存量不会更改。 引用的帧可能会改变使用的内存量(如果生成器表达式引用大对象朝向一端或另一端)但是您不会在生成器对象上看到sys.getsizeof()
的结果; 改为查看框架本地:
>>> next(x)
1
>>> x.gi_frame.f_locals
{'i': 1, '.0': <listiterator object at 0x105339dd0>}
.0
对象是生成器在for
循环中使用的range()
迭代器, i
是for
循环目标。 listiterator
是另一个可迭代对象,它具有对列表range()
的私有引用以及位置计数器,因此每次请求它时它都可以产生下一个元素。
您无法查询生成器的元素大小 ; 无论如何,它们都会根据需要生成元素,你不能事先“知道”它们会产生多少,也不能知道它们在运行后产生了多少。 sys.getsizeof()
肯定不会告诉你; 它无论如何都是一种测量内存占用的工具,如果你想知道总占用空间,你必须递归测量所有引用的对象。
你可以看到发电机已完成从框架的运行; 一旦完成就会被清除 :
>>> x.gi_frame
<frame object at 0x1053b4ad0>
>>> list(x)
[2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> x.gi_frame is None
True
所以最后,用于生成器的内存驻留在帧中的结构中(本地,可能是全局,这些名称空间中的每个对象可能再次引用其他对象),并且当生成器完成时,帧被清除并且生成器.gi_frame
指针被更改为指向None
单例,如果引用计数已降至0,则将帧清除。
所有这些只适用于发电机 ,而不适用于一般的迭代; 生成器是Python代码,因此可以深入反思。
生成器x
基本上是一个函数,无论何时调用它都将提供i
的下一个值。 它不会提前计算所有值。 它等待它被调用,然后它计算并提供下一个值。
因此每次调用都会产生下一个值。
为什么x
的大小不变? 嗯,这是因为x
不是数字列表。 在过程的开始和结束时,它仍然是相同的功能。
这是使用发电机的优势。 您不必在开始时将所有内容加载到内存中(因此它可以节省内存),并且(如果正确完成)您不必在实际需要之前计算任何内容(因此,如果某些值可以节省计算时间)不需要)。
看到这个:
x = (i for i in xrange(10**10))
for i in x:
print i
if i>10:
break
print 'intermission'
for i in x:
print i
if i>20:
break
(注意xrange
,而不是range
---使用range
会导致提前计算发生)。 想象一下,实际生成从0到10**10
的整数以及需要多少内存需要多长时间。 比较此代码的运行速度。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.