繁体   English   中英

Spark作业的大输入数据

[英]Big input data for Spark job

我在文件夹输入下有1800 * .gz文件。 每个* .gz文件约为300 M,解压缩后,每个文件约为3G。 因此,解压缩后总计为5400G。

我无法使用具有5400G执行程序内存的群集。 是否可以读取输入文件夹下的所有文件,如下所示?

JavaRDD行= ctx.textFile(“ input”);

那我需要多少个执行者内存呢? 当数据不能全部放入内存时,Spark如何处理情况?

谢谢!

创建指向文本文件目录的RDD对象本身不会将任何数据集加载到内存中。 仅当您告诉Spark处理数据时,才将数据加载到内存中,并且在许多(大多数情况下)情况下,仍然不需要将完整的数据集同时存储在内存中。 5.4TB数据集所需的内存量实际上取决于您将如何处理它。

就是说,有一些关于如何在加载RDD时保持其持久性的选项。 默认情况下,Spark仅将数据保留在内存中,但是当没有可用内存时,还有一些配置会溢出到磁盘。 Spark编程指南中对此有很好的记录。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM