簡體   English   中英

從Pyspark訪問HDFS失敗

[英]Accessing HDFS from Pyspark fails

我已經在Ubuntu 17.04上安裝了Hadoop 2.7.3和pyspark 2.2.0。

Hadoop和Pyspark似乎都可以正常工作。 但是,我沒有設法從Pyspark的HDFS中獲取文件。 當我嘗試從HDFS獲取文件時,出現以下錯誤:

https://imgur.com/j6Dy2u7

我在另一篇文章中讀到,需要將環境變量HADOOP_CONF_DIR設置為訪問HDFS。 我也這樣做了(請參閱下一個屏幕截圖),但是隨后又出現另一個錯誤,Pyspark不再起作用。

https://imgur.com/AMpJ6TB

如果我刪除了環境變量,那么一切都會像以前一樣工作。

如何解決從Pyspark中的HDFS打開文件的問題? 我已經花了很長時間了,非常感謝您的幫助!

盡管這個答案有點晚,但是您應該使用hdfs:///test/PySpark.txt (注意3 / s)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM