繁体   English   中英

如何从分数集中选择具有统计意义的分数?

[英]How do I select statistically significant points from the set of points?

服务器正在通过外部源(Web服务等)以某个速率(每分钟12个)接收某些进程的监视数据。 现在,过程可能运行一分钟(或少于一分钟)或一小时或一天。 在过程结束时,我可能拥有5个或720个或17280个数据点。 正在收集40多个参数的数据,并将其存储到数据库中,以备将来通过Web显示。 想象一下,有1000多个进程正在运行,并且生成的数据量很大。 我必须坚持使用RDBMS(专门针对MySQL)。 因此,我想通过在将数据存储到数据库之前仅选择具有统计意义的点来处理数据并减少数据量。 最终目的是将这些数据点绘制在图形上,其中Y轴为时间,X轴将由某些参数(数据点的一部分)表示。

我不想错过任何明显的波动或性质,但同时我无法管理所有数据点的绘制(如果数量大于100)。

请注意,我知道基本的统计术语,例如均值,标准差等。

如果这是一个恒定的过程,则可以绘制平均值(应该是一条平线)以及超出某个阈值的任何点。 开始时,三个标准差可能是一个很好的阈值,然后查看它是否能为您提供所需的信息。

如果这不是一个恒定的过程,则需要弄清楚它如何随时间变化并执行类似的操作:绘制与该时间点上的预期有很大不同的点。

在保持重要信息交流的同时,您应该可以得到一个清晰的图形。

如果您希望过程很嘈杂,那么通过样条曲线进行一些平滑处理可以帮助您减少噪声并压缩数据(由于绘制样条曲线,您只需要几个点,其中“很少”是您任意选择的,具体取决于您想去除多少细节)。

但是,如果您的过程不嘈杂, 那么异常值非常重要 ,因为它们可能表示错误或异常情况。 在这种情况下,最好摆脱接近平均值的点(例如小于1个标准偏差),而保留那些远离的点。

一点点注意:术语“统计上有意义”描述了足够高的确定性水平,可以舍弃零假设。 我认为这不适用于您的问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM