簡體   English   中英

R + bigmemory包是否足以進行面向列的數據管理?

[英]Is R+bigmemory package sufficient for column-oriented data management?

我收集了各種各樣的金融時間序列。 我的大多數分析都是以列或行為導向的,很少需要進行任何類型的復雜查詢。 此外,我(現在)在R中做幾乎所有的分析。

因此,我正在認真考慮不部署任何類型的RDBMS,而是直接管理R中的數據(保存RDS文件)。 這將節省我安裝管理數據庫的痛苦,並可能提高數據加載速度。

有什么理由我不應該考慮嗎? 你知道以這種方式管理數據的人嗎? 我知道這很模糊,但我在尋找意見,而不是答案。

如果在R工作是您的舒適區域..即使您的分析或運行時間較長,我也會保留您的數據管理。

我最近有類似的決定:

  1. 我是否應該朝着學習和應用新(語言/方言/系統)的方向去削減執行時間的幾毫秒。

    要么...

  2. 我是否應該使用我使用的相同的舊工具,即使它們在執行時運行速度較慢?

您的跑步產品僅適用於您嗎? 如果是這樣,我只會堅持使用R中的數據管理..即使生產運行速度較慢。

如果您正在為銀行,手機服務或類似的交易環境設計一些東西,我建議您找到超級解決方案。

但如果你的R產品適合你......我會住在R.

考慮機會成本。 學習一種新的語言/生態系統 - 以及像PostgreSQL這樣的東西肯定有資格 - 會比你想象的要多得多。 這些技能可能很有價值,但是它們會產生的投入回報率與您在現有分析上花費的額外時間的回報一樣高嗎?

如果它是供個人使用而且沒有緊迫的性能問題,請堅持使用R.鑒於使用文本和RDS文件進行愚蠢的事情通常比使用完全成熟的數據庫更容易,只需確保備份所有內容。 作為對基於雲的存儲的一種懷疑,我在過去的半年里變成了一個巨大的轉換,除了我最敏感的信息之外,現在存儲在那里。 我使用Dropbox,如果你做得很糟糕,它會保留以前版本的數據。

能夠從智能手機角落的咖啡館查看文檔或腳本是很好的。

CRAN中有一個逐列管理包colbycol ,旨在為大型數據集提供類似DB的功能。 我認為作者必須進行同樣的分析。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM