[英]How do I select statistically significant points from the set of points?
服务器正在通过外部源(Web服务等)以某个速率(每分钟12个)接收某些进程的监视数据。 现在,过程可能运行一分钟(或少于一分钟)或一小时或一天。 在过程结束时,我可能拥有5个或720个或17280个数据点。 正在收集40多个参数的数据,并将其存储到数据库中,以备将来通过Web显示。 想象一下,有1000多个进程正在运行,并且生成的数据量很大。 我必须坚持使用RDBMS(专门针对MySQL)。 因此,我想通过在将数据存储到数据库之前仅选择具有统计意义的点来处理数据并减少数据量。 最终目的是将这些数据点绘制在图形上,其中Y轴为时间,X轴将由某些参数(数据点的一部分)表示。
我不想错过任何明显的波动或性质,但同时我无法管理所有数据点的绘制(如果数量大于100)。
请注意,我知道基本的统计术语,例如均值,标准差等。
如果这是一个恒定的过程,则可以绘制平均值(应该是一条平线)以及超出某个阈值的任何点。 开始时,三个标准差可能是一个很好的阈值,然后查看它是否能为您提供所需的信息。
如果这不是一个恒定的过程,则需要弄清楚它应如何随时间变化并执行类似的操作:绘制与该时间点上的预期有很大不同的点。
在保持重要信息交流的同时,您应该可以得到一个清晰的图形。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.