簡體   English   中英

Sparklyr copy_to失敗

[英]Sparklyr copy_to fails

我正在使用Sparklyr庫來讀取和寫入從R到HDFS的數據。 讀取數據按預期工作,但寫作會產生問題。

為了能夠使用spark_write_csv函數,我需要將我的R data.frames轉換為Spark對象。 我使用sparklyr sdf_copy_to函數(也嘗試使用copy_to)。 但是,我總是得到錯誤

碼:

table1 <- sdf_copy_to(sc,dataframe,OVERWRITE=TRUE)
spark_write_csv(table1, "path")

錯誤:

錯誤:org.apache.hadoop.mapred.InvalidInputException:輸入路徑不存在:hdfs://iacchadoopdev01.dap:8020 / tmp / Rtmp2gpelH / spark_serialize_62547a7b0f9ad206fd384af04e585deb3a2636ca7b1f026943d4cc1d11c7759a.csv

有人遇到了同樣的問題,知道如何解決這個問題嗎?

可能的原因可能是sdf_copy_to函數將數據存儲到我的linux / tmp文件夾,而write函數正在HDFS / tmp文件夾中查找數據。

我有同樣的問題。 您需要將.csv放入hdfs。 你可以通過shell來做到這一點。

您通過ssh登錄到您的群集。 然后使用'put'將.csv放入hdfs。

連接到群集后寫入shell:

hdfs dfs'本地文件的路徑/ file.csv'將'路徑放到您選擇的hdfs中的文件夾'

然后,您將使用hdfs路徑加載該文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM