繁体   English   中英

如何用spark保存HDFS中的数据?

[英]how to save data in HDFS with spark?

我想使用Spark Streaming从Kafka检索数据。 现在,我想将数据保存在远程HDFS中。 我知道我必须使用saveAsText函数。 但是,我不知道如何指定路径。

如果我写这个是正确的:

myDStream.foreachRDD(frm->{
    frm.saveAsTextFile("hdfs://ip_addr:9000//home/hadoop/datanode/myNewFolder");
});

其中ip_addr是我的hdfs远程服务器的ip地址。 /home/hadoop/datanode/是我安装hadoop时创建的DataNode HDFS目录(我不知道是否必须指定此目录)。 而且, myNewFolder是我想保存数据的文件夹。

提前致谢。

亚瑟尔

该路径必须是HDFS中的目录。

例如,如果要将文件保存在HDFS中根/路径下名为myNewFolder的文件夹中。

使用的路径是hdfs://namenode_ip:port/myNewFolder/

执行spark作业时,将创建此目录myNewFolder

hdfs-site.xmldfs.datanode.data.dir提供的datanode数据目录用于存储存储在HDFS中的文件块,不应作为HDFS目录路径引用。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM