[英]Input path does not exist error apache spark
我是学习火花的初学者。 我正在关注一本书“学习火花,作者为 Holden Karau、Andy Konwinski、Patrick Wendell 和 Matei Zaharia”。
在这本书中给出了一个python代码的例子
>>> lines = sc.textFile("README.md") # Create an RDD called lines
>>> lines.count() # Count the number of items in this RDD
127
>>> lines.first() # First item in this RDD, i.e. first line of README.md
u'# Apache Spark'
我想知道文件“README.md”在哪里? 因为书中没有给出任何信息。 此外,每当我尝试运行此代码时,都会出现错误“输入路径不存在:hdfs://quickstart.cloudera:8020/user/cloudera/README.md”
我在 Codera 虚拟机上运行此代码以在 vmware 工作站上运行火花。
由于我使用 cloudera 虚拟机进行 spark,因此文件 README.md 不存在于路径“hdfs://quickstart.cloudera:8020/user/cloudera/README.md”中。 现在,我用过
lines = sc.textFile("file:///home/cloudera/Desktop/README.md")
Spark 将从本地文件系统访问路径“/home/cloudera/Desktop/README.md”中的文件。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.