繁体 English 中英

Spark作业的大输入数据

[英]Big input data for Spark job

原文 2015-02-20 01:04:36 6 1 apache-spark/ yarn

我在文件夹输入下有1800 * .gz文件。 每个* .gz文件约为300 M，解压缩后，每个文件约为3G。 因此，解压缩后总计为5400G。

我无法使用具有5400G执行程序内存的群集。 是否可以读取输入文件夹下的所有文件，如下所示？

JavaRDD行= ctx.textFile（“ input”）;

那我需要多少个执行者内存呢？ 当数据不能全部放入内存时，Spark如何处理情况？

谢谢！

创建指向文本文件目录的RDD对象本身不会将任何数据集加载到内存中。 仅当您告诉Spark处理数据时，才将数据加载到内存中，并且在许多（大多数情况下）情况下，仍然不需要将完整的数据集同时存储在内存中。 5.4TB数据集所需的内存量实际上取决于您将如何处理它。

就是说，有一些关于如何在加载RDD时保持其持久性的选项。 默认情况下，Spark仅将数据保留在内存中，但是当没有可用内存时，还有一些配置会溢出到磁盘。 Spark编程指南中对此有很好的记录。

[英]Spark job with no input dataset

[英]Spark job on hbase data

[英]filtering data on Big number in Spark

[英]Consume a big data by Kafka and Spark

[英]Big Data Analytics Using Spark

[英]Begenner at spark Big data programming (spark code)

[英]Can output of Spark job used as input for another Spark job?

[英]Spark Job for Inserting data to Cassandra

[英]Job executed with no data in Spark Streaming

[英]Spark OutOfMemoryError when taking a big input file

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 没有输入数据集的Spark作业 HBase数据上的Spark作业在 Spark 中过滤大数数据通过Kafka和Spark消费大数据使用 Spark 进行大数据分析火花大数据编程初学者（火花代码） Spark作业的输出可以用作另一个Spark作业的输入吗？ Spark作业，用于将数据插入Cassandra Spark Streaming中没有数据执行的作业提取大输入文件时引发OutOfMemoryError

相关标签