繁体   English   中英

如何获得 Julia DataFrame 的 memory 尺寸?

[英]How to get the memory size of an Julia DataFrame?

我想优化(中的列)Julia DataFrame。 为此,我想获得优化前后 DataFrame 的大小。

这是一个示例 DataFrame:

rows, columns = 10_000, 50
df = rand([x for x in "ABCDE"], rows, columns) |> DataFrame

这个df object的大小...

sizeof(df)

尺寸为 24。

但是,当我对列的大小求和时,大小是不同的......

sum([sizeof(df[x]) for x in names(df)])

列大小的总和为 2000000。

下面是优化...

for i = names(df)
    df[i] = CategoricalArray(df[i], ordered=false)
end

结果是:

sizeof(df)

尺寸为 24。

sum([sizeof(df[x]) for x in names(df)])

列大小的总和为 800。

任何建议如何获得 DataFrame 的准确尺寸?

以下是如何做到这一点的方法:

julia> df = DataFrame(rand([x for x in "ABCDE"], rows, columns), :auto);

julia> Base.summarysize(df)
2007456

julia> Base.summarysize(mapcols(PooledArray, df)) # this will change in the next release of PooledArrays.jl as the default size of refarray element will be UInt32
525656

julia> Base.summarysize(mapcols(categorical, df))
2037256

julia> Base.summarysize(mapcols(x -> categorical(x, compress=true), df))
534856

请注意,在这种情况下它并不多,因为您的所有列都具有Char元素类型。 如果列包含长字符串,您将获得更多好处。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM