在 google colab 中，当我读取 1.5 GB csv 文件时，它占用 6 GB RAM。我已经使用 psutil.virtual_memory().available 检查过。是什么原因？

Question

psutil.virtual_memory().available ：

24.50384521484375

test =pd.read_csv("test_csv.csv")
psutil.virtual_memory().available

18.723899841308594

Answer 1

因为数据的内部 python 表示比裸文件大小占用更多的内存。

例如，在我的特定版本的 python 上，一个非空字符串对象最少占用 38 个字节：

>>> x = '1'
>>> sys.getsizeof(x)
38

因此，如果您有一个只包含数字 1 的文件，则该文件本身只有一个字节。 但是当你将文件内容读入 python 变量时，它占用的内存比这多得多。

在 google colab 中，当我读取 1.5 GB csv 文件时，它占用 6 GB RAM。 我已经使用 psutil.virtual_memory().available 检查过。 是什么原因？