繁体   English   中英

输入路径不存在错误apache spark

[英]Input path does not exist error apache spark

我是学习火花的初学者。 我正在关注一本书“学习火花,作者为 Holden Karau、Andy Konwinski、Patrick Wendell 和 Matei Zaharia”。

在这本书中给出了一个python代码的例子

>>> lines = sc.textFile("README.md") # Create an RDD called lines
>>> lines.count() # Count the number of items in this RDD
127
>>> lines.first() # First item in this RDD, i.e. first line of README.md
u'# Apache Spark'

我想知道文件“README.md”在哪里? 因为书中没有给出任何信息。 此外,每当我尝试运行此代码时,都会出现错误“输入路径不存在:hdfs://quickstart.cloudera:8020/user/cloudera/README.md”

我在 Codera 虚拟机上运行此代码以在 vmware 工作站上运行火花。

由于我使用 cloudera 虚拟机进行 spark,因此文件 README.md 不存在于路径“hdfs://quickstart.cloudera:8020/user/cloudera/README.md”中。 现在,我用过

lines = sc.textFile("file:///home/cloudera/Desktop/README.md")

Spark 将从本地文件系统访问路径“/home/cloudera/Desktop/README.md”中的文件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM