簡體   English   中英

用於財務分析的數據存儲

[英]Data storage for financial analysis

我正在建立系統來分析有關證券交易價格的大量金融數據。 這方面的一個重大挑戰是確定數據將使用哪種存儲方法,因為數據將在10的TB級中。 將對數據進行許多查詢,例如取平均值,計算標准偏差以及按多個列過濾的總和,例如價格,時間,數量等。連接語句不是必需的,但是很高興。

現在,我正在尋找infobright社區版,monetdb和greenplum社區版用於評估目的。 到目前為止,它們看起來很棒,但是對於更高級的功能,某些版本中不提供某些功能(使用多個服務器,插入/更新語句等)。

您將在這種情況下使用哪些解決方案,並為替代方案提供哪些好處? 具有成本效益是一個重要的優點。 如果我必須支付數據倉庫解決方案,我會,但我寧願避免它,並盡可能采用開源/社區版路線。

Infobright提供快速查詢性能,無需調整,無需投影,也無需對大量數據進行索引。 在數據加載方面,我已經看到每小時可以加載80TB數據的實例,每秒超過12,000次插入。

它是如何工作的?

  1. 列方向與行方向
  2. 數據包加壓縮平均值為20:1
  3. 知識網格 - 查詢的第二個響應
  4. 粒度引擎,構建於mysql架構之上

我仍然建議您考慮查看企業許可,但您當然可以評估社區版並測試您的性能和數據加載需求。

免責聲明:作者隸屬於Infobright。

我認為您提到的任何數據庫都可以滿足您的需求。 如果您正在處理10個TB值的數據,那么獲得在MPP集群中運行的企業許可可能會很好地利用資金來縮短處理時間。 此外,如果此DW將為您的組織進行重要處理,擁有許可證意味着您將獲得供應商的支持,這對許多企業都很重要。 因人而異。

一個更重要的問題是你的數據攝取率會是什么樣的? 對於金融系統,我認為方程式的很大一部分應該是能夠在繼續進行正常處理的同時將新數據加載到系統中。

我只是在你的候選人名單中熟悉Greenplum,但我知道它在短時間內加載大量數據方面做得很好。 GP還有許多內置的統計和分析功能,您可以在DB內部本地運行,包括內置SQL函數,MADLib,R等。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM