繁体 English 中英

Spark中的分布式缓存的等价物？

[英]Equivalent of Distributed Cache in Spark?

原文 2015-06-25 00:07:54 4 2 java/ scala/ hadoop/ apache-spark

在Hadoop中，您可以使用分布式缓存来复制每个节点上的只读文件。 在Spark中这样做的等效方法是什么？ 我知道广播变量，但这只适用于变量，而不是文件。

2 个解决方案

看看SparkContext.addFile（）

在每个节点上添加要使用此Spark作业下载的文件。 传递的路径可以是本地文件，HDFS（或其他Hadoop支持的文件系统）中的文件，也可以是HTTP，HTTPS或FTP URI。 要在Spark作业中访问该文件，请使用SparkFiles.get（fileName）查找其下载位置。

如果递归选项设置为true，则可以给出目录。 目前，目录仅支持Hadoop支持的文件系统。

如果您的文件是文本文件，生活在HDFS中，那么，您可以使用：

textFile("<hdfs-path>") “SparkContext”的。

此调用将通过使用该RDD的方法：“ persist() ”为您提供RDD，您可以在节点之间persist()该RDD。

此方法可以在MEMORY / DISK中保留文件数据（序列化/反序列化）。

参考：

http://spark.apache.org/docs/latest/programming-guide.html#which-storage-level-to-choose

分布式缓存

[英]distributed cache

java.lang.IllegalArgumentException：尝试多次向分布式缓存添加（[custom-jar-with-spark-code] .jar）

[英]java.lang.IllegalArgumentException: Attempt to add ([custom-jar-with-spark-code].jar) multiple times to the distributed cache

Hadoop分布式缓存

[英]Hadoop distributed cache

分布式缓存和性能Hadoop

[英]Distributed Cache and performance Hadoop

分布式缓存预热

[英]Distributed Cache Warmup

Terracotta是分布式缓存吗？

[英]Is Terracotta a distributed cache?

分布式缓存技术

[英]distributed cache technology

分布式缓存Hadoop和可伸缩性

[英]Distributed Cache Hadoop and Scalability

分布式缓存架构

[英]distributed Cache Architecture

新手hadoop ..分布式缓存

[英]newbie hadoop .. distributed cache

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 分布式缓存 java.lang.IllegalArgumentException：尝试多次向分布式缓存添加（[custom-jar-with-spark-code] .jar） Hadoop分布式缓存分布式缓存和性能Hadoop 分布式缓存预热 Terracotta是分布式缓存吗？分布式缓存技术分布式缓存Hadoop和可伸缩性分布式缓存架构新手hadoop ..分布式缓存

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM