ConcurrentHashMap中String intern方法的重复数据删除

Question

我看了一篇来自JavaDays的代码，作者说这种方法有概率非常有效，可以将类似String的字符串存储到String实习方法

 public class CHMDeduplicator<T> {
    private final int prob;
    private final Map<T, T> map;

    public CHMDeduplicator(double prob) {
        this.prob = (int) (Integer.MIN_VALUE + prob * (1L << 32));
        this.map = new ConcurrentHashMap<>();
    }

    public T dedup(T t) {
        if (ThreadLocalRandom.current().nextInt() > prob) {
            return t;
        }
        T exist = map.putIfAbsent(t, t);
        return (exist == null) ? t : exist;
    }
}

请解释一下，这一行中概率的影响是什么：

if (ThreadLocalRandom.current().nextInt() > prob) return t;

这是Java Days的原始演示文稿https://shipilev.net/talks/jpoint-April2015-string-catechism.pdf(56th slide）

Answer 1

如果您查看下一张幻灯片，其中包含具有不同概率的数据的表格，或者听取谈话，您将看到/听到基本原理：概率性重复数据删除器平衡重复数据删除字符串所花费的时间，以及重复数据删除带来的内存节省。 这允许微调处理字符串所花费的时间，甚至在代码周围撒上低概率重复数据删除器，从而分摊重复数据删除成本。

（来源：这些是我的幻灯片）

Answer 2

传递给构造函数的double值是0.0到1.0范围内的概率值。 它被转换为整数，使得低于它的整数值的比例等于double值。

整个表达式旨在评估为true ，其概率等于构造函数参数的概率。 通过使用整数数学，它将比使用原始double值稍快。

实现的目的是有时它不会缓存String，而只是返回它。 这样做的原因是CPU与内存性能的关系：如果节省内存的缓存过程导致CPU瓶颈，您可以在找到余额之前调高“不执行任何操作”的概率。

ConcurrentHashMap中String intern方法的重复数据删除

问题描述

2 个解决方案

解决方案1
8 已采纳 2016-08-24 18:47:12

解决方案2
0 2016-08-24 18:37:36

ConcurrentHashMap中String intern方法的重复数据删除

问题描述

2 个解决方案

解决方案1 8 已采纳 2016-08-24 18:47:12

解决方案2 0 2016-08-24 18:37:36

解决方案1
8 已采纳 2016-08-24 18:47:12

解决方案2
0 2016-08-24 18:37:36