繁体 English 中英

平面文件（orc，csv）是否比火花中的增量表更有效

[英]Are flatfiles(orc,csv) more efficient than delta table in spark

原文 2019-12-17 16:34:03 6 1 apache-spark/ pyspark/ apache-spark-sql/ databricks

我正在处理大约 16 个增量表，数据块中有大约 1 到 300 万行。
因此，当我尝试执行像 join 这样的操作，然后在这些增量表中删除或插入时，需要很长时间。
我必须做的主要是插入和删除操作。 所以我应该使用平面文件而不是增量表。 或者我应该尝试与插入的增量表合并。

因此我怀疑 delta 有什么优点，为什么不使用平面文件？

这是一个基本问题，但我对 databricks 还是个新手，所以任何帮助都会很好。

1 个解决方案

Andy，这完全取决于您的需求和期望，但增量表有助于应对许多数据工程挑战。

Delta 表的行为类似于事务日志，对于诸如时间旅行之类的许多场景非常有帮助。 这提供了回滚、重现一些实验（读取旧版本数据）的能力，允许分析数据版本之间的差异（更改）。

同样在处理 parquet 时，我们不必重写完整的数据集，我们只写更新的数据。

如果您不需要任何这些，那么也许您可以忘记增量表并专注于纯粹的性能。

使用Spark将CSV转换为ORC

[英]Converting CSV to ORC with Spark

MySQL在查询优化和一般效率上是否比Apache Spark更有效

[英]Is MySQL more efficient in query optimization and general efficiency than Apache spark

Spark 中比 filter.count 更有效的方法？

[英]more efficient method in Spark than filter.count?

Spark DataFrame ORC Hive 表读取问题

[英]Spark DataFrame ORC Hive table reading issue

Spark：加载或选择ORC格式的Hive表

[英]Spark: load or select Hive table of ORC format

如何在spark中读取orc事务hive表？

[英]how to read orc transaction hive table in spark?

Spark 任务无法将行写入 ORC 表

[英]Spark task fails to write rows into ORC table

Spark Delta 表恢复到版本

[英]Spark Delta table restore to version

Spark sql 优化技巧将csv加载到hive的orc格式

[英]Spark sql Optimization Techniques loading csv to orc format of hive

Spark写入性能csv vs snappy-orc

[英]Spark writing performance csv vs snappy-orc

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Spark将CSV转换为ORC MySQL在查询优化和一般效率上是否比Apache Spark更有效 Spark 中比 filter.count 更有效的方法？ Spark DataFrame ORC Hive 表读取问题 Spark：加载或选择ORC格式的Hive表如何在spark中读取orc事务hive表？ Spark 任务无法将行写入 ORC 表 Spark Delta 表恢复到版本 Spark sql 优化技巧将csv加载到hive的orc格式 Spark写入性能csv vs snappy-orc

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM