繁体   English   中英

运行pyspark程序时找不到文件

[英]file not found while running pyspark program

我是 pyspark 的新手,我想在独立集群中启动一个 pyspark 程序,我按照本教程中的步骤操作,并使用以下命令启动了我的程序:

bin\spark-submit examples\src\main\python\LSI_MapReduce\LSI.py这是我的代码中发生错误的部分:

# load the dataset 
rows = np.loadtxt('first.txt') <----- here

rows = sc.parallelize(rows)
mat = RowMatrix(rows)

# compute SVD 
svd = mat.computeSVD(20, computeU=True)

我的代码的第一步运行良好,但出现此错误:

in the line 200 FileNotFoundError: first.txt not found.

LSI_MapReduce文件夹有一个名为first.txt的文件,与LSI.py位于同一位置

当我在VScode上运行我的程序时,它运行良好。

我该如何解决这个错误?

我非常愿意提供任何帮助。

Python,通过 Numpy,(不是 Spark)试图从你运行 Python 解释器的地方读取文件,

链接中的字数统计示例读取 bin 文件夹旁边的 README.md 文件,因此如果这是您启动命令的位置,那么这就是您的文件需要的位置。 否则, cd 进入您的文件所在的示例文件夹

此外,Spark 本身可以读取文本文件或 csv 文件; 所以你不应该需要 numpy 来做到这一点

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM