[英]indexed flat-files
我們有一個批處理分析SQL作業-每天運行一次-從功能強大的RDBMS中的2個源表中讀取數據。 源表很大(> 100TB),但合並的字段少於10個。
我的問題是,能否將2個源表保存在經過壓縮和索引編制的平面文件中,以便使整個操作更快,節省存儲空間並可以在低規格服務器上運行。 另外,我們可以針對這些壓縮和索引的平面文件運行類似SQL的查詢嗎? 任何有關如何執行此操作的指示都將非常有幫助。
大多數優化策略都會優化速度或大小,並權衡取舍。 通常,RDBMS解決方案以犧牲大小為代價來優化速度-例如,通過創建索引,您將占用更多空間,從而得到更快的數據訪問。
因此,您不可能同時實現速度和尺寸的優化願望-幾乎可以肯定,您必須相互權衡。
其次,如果您想執行“類似於sql的”查詢,我非常確定RDBMS是最好的解決方案-尤其是對於龐大的數據集。
可能是基礎數據適合進行特定的優化-例如,如果您可以基於位掩碼創建自定義索引方案以創建整數,然后使用這些整數通過布爾運算符訪問數據, 則可以勝過RDBMS索引的性能。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.