[英]Spark read file from each node similar to Hadoop's DistribuitedCache
我在主节点中有一个文件,每个节点都应读取。 我怎样才能做到这一点? 在Hadoop的MapReduce中,我使用了
DistribuitedCache.getLocalCacheFiles(context.getConfiguration())
Spark如何在节点之间共享文件? 我是否必须将文件加载到RAM和广播变量中? 或者我只能在SparkContext配置中指示文件路径(绝对?),并且该路径立即可用于所有节点?
您可以使用SparkFiles从分布式缓存中读取文件。
import org.apache.spark.SparkFiles
import org.apache.hadoop.fs.Path
sc.addFile("/path/to/file.txt")
val pathOnWorkerNode = new Path(SparkFiles.get("file.txt"))
例如,查看spark-submit“ files”参数:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.