繁体   English   中英

如何处理任意时间序列数据的收集和分析(数据流挖掘)

[英]How to handle collection and analysis of arbitrary timeseries data (data stream mining)

在我们的黑客空间中,我们有几个环境传感器和事件跟踪器(例如#个已连接的设备,暖气,酒吧交易等),它们会定期输出时间序列数据。 当前平台的输出包含unix时间戳+值/事件。 每个探针的轮询间隔都不同。

目标是将这些数据收集到一个数据集中

  1. 高效存储
  2. 在线分析(使用scikit)
  3. 流可视化(使用bokeh)
  4. 以集成方式处理实值和离散数值数据
  5. (最好使用Python,但这不是必需的。)

实现上述目标的最佳实践方法是什么? 是否有提供此功能的现有库?

当前(不完善)的计划:

  • 集成时间序列对象,并将其集成到numpy数组或熊猫时间序列数据框中。
  • 以最小的可用时间间隔更新x轴,并将间隔较大的传感器的缺失数据点设置为NaN。
  • NaN值可以稍后进行插值/卷积。

但是,这将导致数据集具有大部分NaN值,并且会带来其自身的统计问题以及可能的存储问题。 另一种选择是预先确定中间间隔,并存储丢失的一些数据。

经过进一步搜索后,时间序列数据库显示出正确的答案。 我计划使用OpenTSDB,因为它似乎是可用时间序列数据库中最成熟的。

这解决了存储和间隔查询问题,因为它们已内置在数据库管理系统中。 然后,这只是Bokeh的可视化问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM