簡體   English   中英

索引平面文件

[英]indexed flat-files

我們有一個批處理分析SQL作業-每天運行一次-從功能強大的RDBMS中的2個源表中讀取數據。 源表很大(> 100TB),但合並的字段少於10個。

我的問題是,能否將2個源表保存在經過壓縮和索引編制的平面文件中,以便使整個操作更快,節省存儲空間並可以在低規格服務器上運行。 另外,我們可以針對這些壓縮和索引的平面文件運行類似SQL的查詢嗎? 任何有關如何執行此操作的指示都將非常有幫助。

大多數優化策略都會優化速度或大小,並權衡取舍。 通常,RDBMS解決方案以犧牲大小為代價來優化速度-例如,通過創建索引,您將占用更多空間,從而得到更快的數據訪問。

因此,您不可能同時實現速度和尺寸的優化願望-幾乎可以肯定,您必須相互權衡。

其次,如果您想執行“類似於sql的”查詢,我非常確定RDBMS是最好的解決方案-尤其是對於龐大的數據集。

可能是基礎數據適合進行特定的優化-例如,如果您可以基於位掩碼創建自定義索引方案以創建整數,然后使用這些整數通過布爾運算符訪問數據, 可以勝過RDBMS索引的性能。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM