繁体   English   中英

用于财务分析的数据存储

[英]Data storage for financial analysis

我正在建立系统来分析有关证券交易价格的大量金融数据。 这方面的一个重大挑战是确定数据将使用哪种存储方法,因为数据将在10的TB级中。 将对数据进行许多查询,例如取平均值,计算标准偏差以及按多个列过滤的总和,例如价格,时间,数量等。连接语句不是必需的,但是很高兴。

现在,我正在寻找infobright社区版,monetdb和greenplum社区版用于评估目的。 到目前为止,它们看起来很棒,但是对于更高级的功能,某些版本中不提供某些功能(使用多个服务器,插入/更新语句等)。

您将在这种情况下使用哪些解决方案,并为替代方案提供哪些好处? 具有成本效益是一个重要的优点。 如果我必须支付数据仓库解决方案,我会,但我宁愿避免它,并尽可能采用开源/社区版路线。

Infobright提供快速查询性能,无需调整,无需投影,也无需对大量数据进行索引。 在数据加载方面,我已经看到每小时可以加载80TB数据的实例,每秒超过12,000次插入。

它是如何工作的?

  1. 列方向与行方向
  2. 数据包加压缩平均值为20:1
  3. 知识网格 - 查询的第二个响应
  4. 粒度引擎,构建于mysql架构之上

我仍然建议您考虑查看企业许可,但您当然可以评估社区版并测试您的性能和数据加载需求。

免责声明:作者隶属于Infobright。

我认为您提到的任何数据库都可以满足您的需求。 如果您正在处理10个TB值的数据,那么获得在MPP集群中运行的企业许可可能会很好地利用资金来缩短处理时间。 此外,如果此DW将为您的组织进行重要处理,拥有许可证意味着您将获得供应商的支持,这对许多企业都很重要。 因人而异。

一个更重要的问题是你的数据摄取率会是什么样的? 对于金融系统,我认为方程式的很大一部分应该是能够在继续进行正常处理的同时将新数据加载到系统中。

我只是在你的候选人名单中熟悉Greenplum,但我知道它在短时间内加载大量数据方面做得很好。 GP还有许多内置的统计和分析功能,您可以在DB内部本地运行,包括内置SQL函数,MADLib,R等。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM