簡體   English   中英

平面文件(orc,csv)是否比火花中的增量表更有效

[英]Are flatfiles(orc,csv) more efficient than delta table in spark

我正在處理大約 16 個增量表,數據塊中有大約 1 到 300 萬行。
因此,當我嘗試執行像 join 這樣的操作,然后在這些增量表中刪除或插入時,需要很長時間。
我必須做的主要是插入和刪除操作。 所以我應該使用平面文件而不是增量表。 或者我應該嘗試與插入的增量表合並。

因此我懷疑 delta 有什么優點,為什么不使用平面文件?

這是一個基本問題,但我對 databricks 還是個新手,所以任何幫助都會很好。

Andy,這完全取決於您的需求和期望,但增量表有助於應對許多數據工程挑戰。

Delta 表的行為類似於事務日志,對於諸如時間旅行之類的許多場景非常有幫助。 這提供了回滾重現一些實驗(讀取舊版本數據)的能力,允許分析數據版本之間的差異(更改)。

同樣在處理 parquet 時,我們不必重寫完整的數據集,我們只寫更新的數據

如果您不需要任何這些,那么也許您可以忘記增量表並專注於純粹的性能。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM