为什么 Java 中的 HashSet 占用这么多内存？

Question

我正在将一个大约有 3800 万行的 1GB ASCII 文本文件加载到 HashSet 中。 使用 Java 11，该过程需要大约 8GB 的内存。

HashSet<String> addresses = new HashSet<>(38741847);
try (Stream<String> lines = Files.lines(Paths.get("test.txt"), Charset.defaultCharset())) {
    lines.forEach(addresses::add);
}
System.out.println(addresses.size());
Thread.sleep(100000);

为什么 Java 占用这么多内存？

相比之下，我在 Python 中实现了同样的事情，它只需要 4GB 的内存。

s = set()
with open("test.txt") as file:
for line in file:
    s.add(line)
print(len(s))
time.sleep(1000)

Answer 1

HashSet的负载因子默认为 0.75。 这意味着一旦哈希集已满 75%，就会重新分配内存。 如果您的哈希集应该包含 38741847 个元素，则必须使用 38741847/0.75 对其进行初始化或设置更高的负载因子：

new HashSet<>(38741847, 1); // load factor 1 (100%)

Answer 2

同时我在这里找到了答案，在那里我还发现了一些替代的 HashSet 实现，它们是trove4j和hppc库的一部分。 我用相同的代码测试了它们。

trove4j 只占用了 5.5GB

THashSet<String> s = new THashSet<>(38742847,1);

hppc 只占用了 5GB

ObjectIdentityHashSet<String> s2 = new ObjectIdentityHashSet<>(38742847,1, 0.99);

为什么 Java 中的 HashSet 占用这么多内存？

问题描述

2 个解决方案

解决方案1
0 2021-11-12 18:26:24

解决方案2
0 2021-11-12 18:46:23

为什么 Java 中的 HashSet 占用这么多内存？

问题描述

2 个解决方案

解决方案1 0 2021-11-12 18:26:24

解决方案2 0 2021-11-12 18:46:23

解决方案1
0 2021-11-12 18:26:24

解决方案2
0 2021-11-12 18:46:23