簡體 English 中英

平面文件（orc，csv）是否比火花中的增量表更有效

[英]Are flatfiles(orc,csv) more efficient than delta table in spark

原文 2019-12-17 16:34:03 9 1 apache-spark/ pyspark/ apache-spark-sql/ databricks

我正在處理大約 16 個增量表，數據塊中有大約 1 到 300 萬行。
因此，當我嘗試執行像 join 這樣的操作，然后在這些增量表中刪除或插入時，需要很長時間。
我必須做的主要是插入和刪除操作。 所以我應該使用平面文件而不是增量表。 或者我應該嘗試與插入的增量表合並。

因此我懷疑 delta 有什么優點，為什么不使用平面文件？

這是一個基本問題，但我對 databricks 還是個新手，所以任何幫助都會很好。

1 個解決方案

Andy，這完全取決於您的需求和期望，但增量表有助於應對許多數據工程挑戰。

Delta 表的行為類似於事務日志，對於諸如時間旅行之類的許多場景非常有幫助。 這提供了回滾、重現一些實驗（讀取舊版本數據）的能力，允許分析數據版本之間的差異（更改）。

同樣在處理 parquet 時，我們不必重寫完整的數據集，我們只寫更新的數據。

如果您不需要任何這些，那么也許您可以忘記增量表並專注於純粹的性能。

使用Spark將CSV轉換為ORC

[英]Converting CSV to ORC with Spark

MySQL在查詢優化和一般效率上是否比Apache Spark更有效

[英]Is MySQL more efficient in query optimization and general efficiency than Apache spark

Spark 中比 filter.count 更有效的方法？

[英]more efficient method in Spark than filter.count?

Spark DataFrame ORC Hive 表讀取問題

[英]Spark DataFrame ORC Hive table reading issue

Spark：加載或選擇ORC格式的Hive表

[英]Spark: load or select Hive table of ORC format

如何在spark中讀取orc事務hive表？

[英]how to read orc transaction hive table in spark?

Spark 任務無法將行寫入 ORC 表

[英]Spark task fails to write rows into ORC table

Spark Delta 表恢復到版本

[英]Spark Delta table restore to version

Spark sql 優化技巧將csv加載到hive的orc格式

[英]Spark sql Optimization Techniques loading csv to orc format of hive

Spark寫入性能csv vs snappy-orc

[英]Spark writing performance csv vs snappy-orc

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用Spark將CSV轉換為ORC MySQL在查詢優化和一般效率上是否比Apache Spark更有效 Spark 中比 filter.count 更有效的方法？ Spark DataFrame ORC Hive 表讀取問題 Spark：加載或選擇ORC格式的Hive表如何在spark中讀取orc事務hive表？ Spark 任務無法將行寫入 ORC 表 Spark Delta 表恢復到版本 Spark sql 優化技巧將csv加載到hive的orc格式 Spark寫入性能csv vs snappy-orc

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM