繁体   English   中英

Spark从每个节点读取文件,类似于Hadoop的DistribuitedCache

[英]Spark read file from each node similar to Hadoop's DistribuitedCache

我在主节点中有一个文件,每个节点都应读取。 我怎样才能做到这一点? 在Hadoop的MapReduce中,我使用了

DistribuitedCache.getLocalCacheFiles(context.getConfiguration())

Spark如何在节点之间共享文件? 我是否必须将文件加载到RAM和广播变量中? 或者我只能在SparkContext配置中指示文件路径(绝对?),并且该路径立即可用于所有节点?

您可以使用SparkFiles从分布式缓存中读取文件。

import org.apache.spark.SparkFiles
import org.apache.hadoop.fs.Path

sc.addFile("/path/to/file.txt")
val pathOnWorkerNode = new Path(SparkFiles.get("file.txt"))

例如,查看spark-submit“ files”参数:

在具有其他文件的YARN群集上运行Spark作业

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM