簡體   English   中英

Spark寫入性能csv vs snappy-orc

[英]Spark writing performance csv vs snappy-orc

如果我需要在磁盤上寫入 dataframe,哪種格式的性能會更好 csv 或'orc with snappy'?

一方面 csv 格式將避免壓縮任務開銷,但另一方面 snappy 將減少總字節大小寫入任務。 請在這里也糾正我的假設?

請注意,我的問題是關於寫入性能而不是存儲角度。

壓縮是關於節省空間,而不是性能,因此您使用 Snappy 的事實並不是一個真正相關的細節,因為您可以使用 LZ4 或 ZSTD 代替,例如。

ORC是一種面向列的數據格式,其分析性能優於 CSV,並且在某些條件下,其性能將優於 Spark 的默認格式 Parquet。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM