簡體 English 中英

刪除未用於計算的列會影響 Spark 的性能嗎？

[英]Does dropping columns that are not used in computation affect performance in spark?

原文 2022-09-19 12:38:21 3 1 apache-spark/ pyspark/ data-science/ distributed-computing/ data-processing

我有一個大型數據集（數億行），我需要使用帶有 Databricks 的 spark 進行大量處理。 該數據集有數十列，通常是 integer、浮點數或整數數組。

我的問題是：如果我在處理數據之前刪除一些不需要的列，會有什么不同嗎？ 就 memory 和/或處理速度而言？

1 個解決方案

這取決於你打算如何處理這個數據集。 Spark 足夠聰明，可以確定真正需要哪一列，但並不總是那么容易。 例如，當您使用 UDF（用戶定義的功能）在案例 class 上運行並定義所有列時，所有列都將從源代碼為 select，因為從 Spark 的角度來看，這樣的 UDF 是一個黑盒子。

您可以通過 SparkUI 檢查為您的作業選擇了哪一列。 例如查看這篇博文： https://medium.com/swlh/spark-ui-to-debug-queries-3ba43279efee

在您的計划中，您可以查找此行：PartitionFilters: [], PushedFilters: [], ReadSchema: struct<id:string>

在 ReadSchema 中，您將能夠確定 Spark 讀取了哪些列，以及在我們的處理中是否真的需要它們

Spark SQL - 重命名列會影響分區嗎？

[英]Spark SQL - does renaming columns affect partitioning?

刪除 Spark 中的臨時列

[英]Dropping temporary columns in Spark

Spark RDD / DF作為類的變量成員。它會影響性能嗎？

[英]Spark RDD/DF as variable member of class. Does it affect performance?

避免在Spark中冗余計算新列

[英]Avoid redundant computation of new columns in Spark

Spark Dataframe - 列之間對的計算（Scala）

[英]Spark Dataframe - Computation of pairs between columns (Scala)

Spark數據幀中多列計算的優化方式？

[英]Optimized way of multiple columns computation in Spark dataframe?

在Scala Spark中按數據類型刪除列

[英]Dropping columns by data type in Scala Spark

Spark：使用正則表達式刪除多列

[英]Spark: dropping multiple columns using regex

在 Java 中刪除多列 Spark DataFrame

[英]Dropping multiple columns of Spark DataFrame in Java

df.drop（）操作后，spark數據框未刪除列

[英]spark dataframe not dropping columns after df.drop() operation

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark SQL - 重命名列會影響分區嗎？刪除 Spark 中的臨時列 Spark RDD / DF作為類的變量成員。它會影響性能嗎？避免在Spark中冗余計算新列 Spark Dataframe - 列之間對的計算（Scala） Spark數據幀中多列計算的優化方式？在Scala Spark中按數據類型刪除列 Spark：使用正則表達式刪除多列在 Java 中刪除多列 Spark DataFrame df.drop（）操作后，spark數據框未刪除列

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM