[英]file not found while running pyspark program
我是 pyspark 的新手,我想在独立集群中启动一个 pyspark 程序,我按照本教程中的步骤操作,并使用以下命令启动了我的程序:
bin\spark-submit examples\src\main\python\LSI_MapReduce\LSI.py
这是我的代码中发生错误的部分:
# load the dataset
rows = np.loadtxt('first.txt') <----- here
rows = sc.parallelize(rows)
mat = RowMatrix(rows)
# compute SVD
svd = mat.computeSVD(20, computeU=True)
我的代码的第一步运行良好,但出现此错误:
in the line 200 FileNotFoundError: first.txt not found.
LSI_MapReduce
文件夹有一个名为first.txt的文件,与LSI.py
位于同一位置
当我在VScode上运行我的程序时,它运行良好。
我该如何解决这个错误?
我非常愿意提供任何帮助。
Python,通过 Numpy,(不是 Spark)试图从你运行 Python 解释器的地方读取文件,
链接中的字数统计示例读取 bin 文件夹旁边的 README.md 文件,因此如果这是您启动命令的位置,那么这就是您的文件需要的位置。 否则, cd 进入您的文件所在的示例文件夹
此外,Spark 本身可以读取文本文件或 csv 文件; 所以你不应该需要 numpy 来做到这一点
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.