繁体 English 中英

在驱动程序中不在驱动程序中火花读取orc文件

[英]Spark reading orc file in driver not in executors

原文 2017-10-25 09:55:52 3 2 apache-spark/ amazon-s3/ orc

我在s3中有30GB的ORC文件（24个部分* 1.3G） 。 我正在使用spark来阅读此orc并进行一些操作。 但是从日志中我观察到的甚至在进行任何操作之前都没有发现，spark正在打开并从s3中读取所有24个部分（花12分钟只是为了读取文件） 。 但是我在这里担心的是，所有这些读取操作仅在驱动程序中发生，而执行器此时都处于空闲状态 。

有人可以解释一下为什么会这样吗？ 有什么办法可以利用所有执行程序进行阅读吗？

实木复合地板也一样吗？

提前致谢。

2 个解决方案

ORC和Parquet都可以检查文件页脚中的摘要数据，并且取决于s3客户端及其配置，可能会导致它执行一些效率很低的IO。 这可能是原因。

如果您使用的是s3a：//连接器和Hadoop 2.8+的基础JAR，则可以将其告知达到列数据最大性能所需的随机IO，并进行其他调整。

val OPTIONS = Map( "spark.hadoop.fs.s3a.experimental.fadvise" => "random" "spark.hadoop.orc.splits.include.file.footer" -> "true", "spark.hadoop.orc.cache.stripe.details.size" -> "1000", "spark.hadoop.orc.filterPushdown" -> "true" "spark.sql.parquet.mergeSchema" -> "false", "spark.sql.parquet.filterPushdown" -> "true" )

您是否提供了数据架构？

如果不是，Spark会尝试获取所有文件的架构，然后继续执行。

调整Spark，设置执行程序和内存驱动程序以读取大型csv文件

[英]Tune Spark, set executors and memory driver for reading large csv file

spark execution - 在驱动程序和执行程序中访问文件内容的单一方法

[英]spark execution - a single way to access file contents in both the driver and executors

在 spark 集群上读取 40 MB ORC 文件需要 20 分钟

[英]Reading 40 MB ORC file is taking 20 minutes on spark cluster

使用 Spark 1.4 API 读取 ORC 文件时的 NPE

[英]NPE while reading ORC file using Spark 1.4 API

Spark删除Apache Orc文件

[英]Spark remove Apache Orc file

Spark驱动程序死了，执行器也死了吗？

[英]Spark driver dies, does executors die too?

在Spark执行程序上找不到Apache Phoenix JDBC驱动程序

[英]Apache Phoenix JDBC driver not found on spark executors

如何将配置从驱动程序传递给 Spark 中的执行程序？

[英]How to pass configuration from driver to executors in Spark?

spark驱动程序如何序列化发送给执行程序的任务？

[英]How spark driver serializes the task that is sent to executors?

将参数从驱动程序传递给spark中的执行程序

[英]Pass parameters from driver to executors in spark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 调整Spark，设置执行程序和内存驱动程序以读取大型csv文件 spark execution - 在驱动程序和执行程序中访问文件内容的单一方法在 spark 集群上读取 40 MB ORC 文件需要 20 分钟使用 Spark 1.4 API 读取 ORC 文件时的 NPE Spark删除Apache Orc文件 Spark驱动程序死了，执行器也死了吗？在Spark执行程序上找不到Apache Phoenix JDBC驱动程序如何将配置从驱动程序传递给 Spark 中的执行程序？ spark驱动程序如何序列化发送给执行程序的任务？将参数从驱动程序传递给spark中的执行程序

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM