繁体   English   中英

平面文件(orc,csv)是否比火花中的增量表更有效

[英]Are flatfiles(orc,csv) more efficient than delta table in spark

我正在处理大约 16 个增量表,数据块中有大约 1 到 300 万行。
因此,当我尝试执行像 join 这样的操作,然后在这些增量表中删除或插入时,需要很长时间。
我必须做的主要是插入和删除操作。 所以我应该使用平面文件而不是增量表。 或者我应该尝试与插入的增量表合并。

因此我怀疑 delta 有什么优点,为什么不使用平面文件?

这是一个基本问题,但我对 databricks 还是个新手,所以任何帮助都会很好。

Andy,这完全取决于您的需求和期望,但增量表有助于应对许多数据工程挑战。

Delta 表的行为类似于事务日志,对于诸如时间旅行之类的许多场景非常有帮助。 这提供了回滚重现一些实验(读取旧版本数据)的能力,允许分析数据版本之间的差异(更改)。

同样在处理 parquet 时,我们不必重写完整的数据集,我们只写更新的数据

如果您不需要任何这些,那么也许您可以忘记增量表并专注于纯粹的性能。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM