繁体 English 中英

ELKI的LOF实现可用于高度重复的数据

[英]ELKI's LOF implementation for heavily duplicated data

原文 2015-09-03 05:02:11 2 1 probability/ nan/ duplicate-data/ outliers/ elki

ELKI是否会因为其中包含许多重复值的数据而失败？ 我的文件具有超过200万个观测值（1D），但其中仅包含数百个唯一值。 其余的重复。 当我在ELKI中运行此文件以进行LOF或LoOP计算时，对于小于频率最高值出现次数的任何k，它将返回NAN作为离群值。 我可以想象，如果将重复项作为最近的邻居，则LRD计算一定会导致此问题。 但是不应该这样做吗？ 我们可以依靠ELKI在这种情况下产生的结果吗？

1 个解决方案

与ELKI无关，而与算法有关。

大多数异常值检测算法使用k个最近的邻居。 如果这些相同，则值可能有问题。 在LOF中，重复点的邻居可以获得异常值的无穷大。 同样，如果重复项过多，LoOP的异常值得分可能会由于除以0而达到NaN。

但这不是ELKI的问题，而是这些方法的定义。 坚持这些定义的任何实现都应表现出这些效果。 有一些方法可以避免/减少影响：

向数据集添加抖动
删除重复项（但不要考虑高度重复的值离群值！）
增加邻里规模

如果数据重复，很容易证明在LOF / LoOP方程中确实会出现这种结果。

这些算法的这种限制很可能可以“修复”，但是我们希望ELKI中的实现与原始发布接近，因此我们避免进行未发布的更改。 但是，如果发布了“ LOFdup”方法并为ELKI做出了贡献，我们显然会添加它。

请注意，LOF和LoOP都不打算与一维数据一起使用。 对于一维数据，我建议重点关注“传统”统计文献 ，例如核密度估计 。 一维数值数据是特殊的，因为它是有序的 -这既可以进行优化，也可以进行更高级的统计，这将不可行或需要对多元数据进行过多观察。 LOF和类似方法是非常基础的统计信息（非常基础，以至于许多统计学家都会将其完全拒绝为“愚蠢”或“天真”），其主要好处是可以轻松扩展到大型多元数据集。 有时，诸如朴素贝叶斯这样的朴素方法可以在实践中很好地起作用。 LOF和LoOP同样适用：算法中存在一些可疑的决策。 但是它们有效并且可以扩展。 就像朴素贝叶斯一样，朴素贝叶斯的独立性假设值得怀疑，但是朴素贝叶斯的分类通常效果很好，并且伸缩性很好。

换句话说，这不是ELKI中的错误。 实现执行已发布的内容 。

具有对数概率Java实现的数值精度

[英]Numerical accuracy with log probability Java implementation

为什么实施Monty Hall的可能性为50％？

[英]Why does this implementation of the Monty Hall give the probability to be 50%?

顺序蒙特卡罗方法（粒子滤波器）的实现

[英]Implementation of sequential monte carlo method (particle filters)

蒙蒂·霍尔的实施

[英]Monty Hall implementation

焦点损失实施

[英]Focal loss implementation

即使概率相等，我的数据仍呈下降趋势

[英]My Data keeps trending downwards even though it's equal probabilities

实现一个简单的算法（计算概率）

[英]Implementation of a simple algorithm (to calculate probability)

罗莎琳德：孟德尔的第一部法律

[英]Rosalind: Mendel's first law

描述这种组合的术语是什么？

[英]What's the term to describe this combination?

多项式问题的 R 实现：n 次头在 k 次抛掷中的概率，每次抛掷的概率不同

[英]R implementation of a Multinominal Problem: Probability of n-times head in k throws with varying probabilities per throw

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 具有对数概率Java实现的数值精度为什么实施Monty Hall的可能性为50％？顺序蒙特卡罗方法（粒子滤波器）的实现蒙蒂·霍尔的实施焦点损失实施即使概率相等，我的数据仍呈下降趋势实现一个简单的算法（计算概率）罗莎琳德：孟德尔的第一部法律描述这种组合的术语是什么？多项式问题的 R 实现：n 次头在 k 次抛掷中的概率，每次抛掷的概率不同

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM