簡體   English   中英

如何使用 OSError 修復 pyspark NLTK 錯誤:[WinError 123]?

[英]How to fix pyspark NLTK Error with OSError: [WinError 123]?

運行將 RDD 轉換為 DataFrame 時出現意外錯誤:

import nltk
from nltk import pos_tag
my_rdd_of_lists = df_removed.select("removed").rdd.map(lambda x: nltk.pos_tag(x))
my_df = spark.createDataFrame(my_rdd_of_lists)

當我調用 nltk function od rdd 時,總是出現此錯誤。 當我用任何 numpy 方法制作這條線時,它並沒有失敗。

錯誤代碼:

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 14.0 failed 1 times, most recent failure: Lost task 0.0 in stage 14.0 (TID 323, localhost, executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last):

OSError: [WinError 123] Nazwa pliku, nazwa katalogu lub składnia etykiety woluminu jest niepoprawna: 'C:\\C:\\Users\\Olga\\Desktop\\Spark\\spark-2.4.5-bin-hadoop2.7\\jars\\spark-core_2.11-2.4.5.jar'

所以這是我不知道如何解決的部分。 我認為這是環境變量的問題,但似乎一切正常:

SPARK HOME: C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7

我還打印了我的 sys.path:

import sys
for i in sys.path:
    print(i) 

並得到:

C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7\python
C:\Users\Olga\AppData\Local\Temp\spark-22c0eb38-fcc0-4f1f-b8dd-af83e15d342c\userFiles-3195dcc7-0fc6-469f-9afc-7752510f2471
C:\Users\Olga\Desktop\Spark\spark-2.4.5-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip
C:\Users\Olga
C:\Users\Olga\Anaconda3\python37.zip
C:\Users\Olga\Anaconda3\DLLs
C:\Users\Olga\Anaconda3\lib
C:\Users\Olga\Anaconda3

C:\Users\Olga\Anaconda3\lib\site-packages
C:\Users\Olga\Anaconda3\lib\site-packages\win32
C:\Users\Olga\Anaconda3\lib\site-packages\win32\lib
C:\Users\Olga\Anaconda3\lib\site-packages\Pythonwin
C:\Users\Olga\Anaconda3\lib\site-packages\IPython\extensions
C:\Users\Olga\.ipython

這里對我來說一切看起來都還不錯。 請幫忙,我不知道該怎么辦。 代碼的早期部分運行沒有任何錯誤。 我應該以任何其他方式安裝 nltk 以使用 spark 運行它嗎?

Hai Milva 要解決代碼中的 os 錯誤,您只需導入 os,以便將運行程序的所有權限授予如下代碼:

{{{ 導入操作系統 }}}

希望這個答案對你有幫助

似乎是包裹有問題。

我用 pip 卸載了 nltk、pandas 和pip ,然后我做了同樣的事情,但使用了conda

之后我列出了我的包,發現了一個奇怪的叫做 package 的包,它似乎是一個錯誤,叫做“-umpy”。

我什至無法卸載它 - 沒有命令提示符,也沒有 Anaconda 導航器。 所以我只是在我的計算機上的文件中找到它並刪除它。 然后我再次安裝了nltk。

之后它開始正常工作並且沒有出現錯誤。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM