繁体   English   中英

ELKI的LOF实现可用于高度重复的数据

[英]ELKI's LOF implementation for heavily duplicated data

ELKI是否会因为其中包含许多重复值的数据而失败? 我的文件具有超过200万个观测值(1D),但其中仅包含数百个唯一值。 其余的重复。 当我在ELKI中运行此文件以进行LOFLoOP计算时,对于小于频率最高值出现次数的任何k,它将返回NAN作为离群值。 我可以想象,如果将重复项作为最近的邻居,则LRD计算一定会导致此问题。 但是不应该这样做吗? 我们可以依靠ELKI在这种情况下产生的结果吗?

与ELKI无关,而与算法有关。

大多数异常值检测算法使用k个最近的邻居。 如果这些相同,则值可能有问题。 在LOF中,重复点的邻居可以获得异常值的无穷大。 同样,如果重复项过多,LoOP的异常值得分可能会由于除以0而达到NaN。

但这不是ELKI的问题,而是这些方法的定义 坚持这些定义的任何实现都应表现出这些效果。 有一些方法可以避免/减少影响:

  • 向数据集添加抖动
  • 删除重复项(但不要考虑高度重复的值离群值!)
  • 增加邻里规模

如果数据重复,很容易证明在LOF / LoOP方程中确实会出现这种结果。

这些算法的这种限制很可能可以“修复”,但是我们希望ELKI中的实现与原始发布接近,因此我们避免进行未发布的更改。 但是,如果发布了“ LOFdup”方法并为ELKI做出了贡献,我们显然会添加它。

请注意,LOF和LoOP都不打算与一维数据一起使用。 对于一维数据,我建议重点关注“传统”统计文献 ,例如核密度估计 一维数值数据是特殊的,因为它是有序的 -这既可以进行优化,也可以进行更高级的统计,这将不可行或需要对多元数据进行过多观察。 LOF和类似方法是非常基础的统计信息(非常基础,以至于许多统计学家都会将其完全拒绝为“愚蠢”或“天真”),其主要好处是可以轻松扩展到大型多元数据集。 有时,诸如朴素贝叶斯这样的朴素方法可以在实践中很好地起作用。 LOF和LoOP同样适用:算法中存在一些可疑的决策。 但是它们有效并且可以扩展。 就像朴素贝叶斯一样,朴素贝叶斯的独立性假设值得怀疑,但是朴素贝叶斯的分类通常效果很好,并且伸缩性很好。

换句话说,这不是ELKI中的错误。 实现执行已发布的内容

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM