我试图理解为什么 Flajolet-Martin 算法 (FM) 工作时间过长。 这里对算法的描述(第 4.4.2 节)很有希望,但并不完美。 为什么任何元素的最大尾部长度(尾随零的数量)可以作为 stream中不同元素数量的估计值? 想象一下只有两个不同的元素 {1,2},它们分别是 hash ...
我试图理解为什么 Flajolet-Martin 算法 (FM) 工作时间过长。 这里对算法的描述(第 4.4.2 节)很有希望,但并不完美。 为什么任何元素的最大尾部长度(尾随零的数量)可以作为 stream中不同元素数量的估计值? 想象一下只有两个不同的元素 {1,2},它们分别是 hash ...
以下是我为实现Flajolet and Martin's Algorithm编写的代码。 我使用Jenkins hash function生成了一个32 bit hash value的数据32 bit hash value 。 该程序似乎遵循了算法,但偏离了大约 20%。 我的数据集包含超过 200 ...
我试图理解这个草图,但无法理解。 如果我错了,请纠正我,但基本上,假设我有一个文本数据.. 单词.. 我有一个散列函数.. 它需要一个单词并创建一个整数散列,然后我将该散列转换为二进制位向量? 对.. 然后我跟踪我从左边看到的第一个 1.. 那个 1 所在的位置(比如,k)......这个集合的基数 ...