繁体 English 中英

Spark读分区——资源成本分析

[英]Spark read partitions - Resource cost analysis

原文 2019-07-17 10:34:59 7 1 performance/ apache-spark/ partitioning

当使用spark.read.json("/A=1/B=2/C=3/D=4/E=5/")类的东西读取 Spark 中按列分区的数据时，将只允许扫描文件夹 E=5。

但是假设我有兴趣通过所有数据源读取C = my_value分区。 指令将是spark.read.json("/*/*/C=my_value/") 。

在所描述的场景中计算会发生什么？ Spark 只会列出 A 和 B 的分区值？ 或者它也会扫描所有叶子（实际文件）？

1 个解决方案

感谢您提出一个有趣的问题。 阿帕奇星火采用Hadoop的FileSystem抽象处理通配符模式。 在源代码中，它们被称为glob 模式

org.apache.hadoop.fs.FileSystem#globStatus(org.apache.hadoop.fs.Path)方法用于返回“与路径模式匹配的路径数组”。 这个函数然后调用org.apache.hadoop.fs.Globber#glob来找出 glob 模式的确切文件匹配算法。 globStatus 由org.apache.spark.sql.execution.datasources.DataSource#checkAndGlobPathIfNecessary 。 您可以添加一些断点以查看它在后台是如何工作的。

但长话短说：

在所描述的场景中计算会发生什么？ Spark 只会列出 A 和 B 的分区值？ 或者它也会扫描所有叶子（实际文件）？

Spark 会将您的 glob 分成 3 部分 ["*", "*", "C=my_value"]。 稍后，它将使用 Hadoop org.apache.hadoop.fs.FileSystem#listStatus(org.apache.hadoop.fs.Path)方法列出各个级别的文件。 对于每个文件，它将构建一个路径并尝试将其与当前模式匹配。 匹配的文件将作为“候选”保留，仅在最后一步被过滤掉，此时算法将查找“C=my_value”。

除非你有很多文件，否则这个操作应该不会伤害到你。 也许这就是为什么你应该保留更少但更大的文件的原因之一（著名的“小文件太多”的数据工程问题）。

Spark不会忽略空分区

[英]Spark not ignoring empty partitions

RDD 中的分区数和 Spark 中的性能

[英]Number of partitions in RDD and performance in Spark

连接的Spark性能分析

[英]Spark performance analysis for joins

我在哪里可以找到Spark的运营成本？

[英]Where can I find the cost of the operations in Spark?

使用 reduceByKey(numPartitions) 或 repartition 规范化 SPARK RDD 分区

[英]Normalize SPARK RDD partitions using reduceByKey(numPartitions) or repartition

使用Spark Streaming应用程序的Sparklens进行性能分析

[英]Performance analysis using Sparklens of Spark Streaming Application

使用交易但实际上没有进行任何查询会产生资源成本吗？

[英]Does using a transaction but not actually making any queries have a resource cost?

spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别？

[英]What is the difference between spark.sql.shuffle.partitions and spark.default.parallelism?

SQL Server和TPC-H表分区性能分析较小的分区，较少的读取，较高的cpu成本

[英]SQL Server and TPC-H Table Partitioning Performance Analysis smaller partitions, fewer reads, higher cpu costs

如何从Spark中获取从hdfs读取数据的时间成本

[英]How to get the time cost of reading data from hdfs in Spark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark不会忽略空分区 RDD 中的分区数和 Spark 中的性能连接的Spark性能分析我在哪里可以找到Spark的运营成本？使用 reduceByKey(numPartitions) 或 repartition 规范化 SPARK RDD 分区使用Spark Streaming应用程序的Sparklens进行性能分析使用交易但实际上没有进行任何查询会产生资源成本吗？ spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别？ SQL Server和TPC-H表分区性能分析较小的分区，较少的读取，较高的cpu成本如何从Spark中获取从hdfs读取数据的时间成本

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM