繁体   English   中英

在纱线上运行火花机学习示例失败

[英]run spark machine learning example on yarn failed

启动dfs,yarn和spark之后,我在主主机上spark的根目录下运行以下代码:

MASTER=yarn ./bin/run-example ml.LogisticRegressionExample \\ data/mllib/sample_libsvm_data.txt

实际上,我是从Spark的自述文件中获取这些代码的,以下是GitHub上有关LogisticRegressionExample的源代码: https : //github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/实例/毫升/ LogisticRegressionExample.scala

然后发生错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://master:9000/user/root/data/mllib/sample_libsvm_data.txt;

首先,我不知道为什么它是hdfs://master:9000/user/root ,我确实将namenode的IP地址设置为hdfs://master:9000 ,但是为什么spark选择了/user/root

然后,在群集的每个主机上创建一个目录/user/root/data/mllib/sample_libsvm_data.txt ,所以希望spark可以找到此文件。 但是,同样的错误再次发生。 请告诉我如何解决。

Spark正在HDFS而非常规Linux文件系统上查找文件。 您提供给数据的路径(data / mllib / sample_libsvm_data.txt)是相对路径。 在HDFS中,假定相对路径开始于您的主目录内。

github上的LogRegExample.scala假定是本地执行,而不是yarn执行。 如果要执行纱线执行,则需要将文件上传到HDFS。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM