[英]Sparklyr copy_to fails
我正在使用Sparklyr庫來讀取和寫入從R到HDFS的數據。 讀取數據按預期工作,但寫作會產生問題。
為了能夠使用spark_write_csv函數,我需要將我的R data.frames轉換為Spark對象。 我使用sparklyr sdf_copy_to函數(也嘗試使用copy_to)。 但是,我總是得到錯誤
碼:
table1 <- sdf_copy_to(sc,dataframe,OVERWRITE=TRUE)
spark_write_csv(table1, "path")
錯誤:
錯誤:org.apache.hadoop.mapred.InvalidInputException:輸入路徑不存在:hdfs://iacchadoopdev01.dap:8020 / tmp / Rtmp2gpelH / spark_serialize_62547a7b0f9ad206fd384af04e585deb3a2636ca7b1f026943d4cc1d11c7759a.csv
有人遇到了同樣的問題,知道如何解決這個問題嗎?
可能的原因可能是sdf_copy_to函數將數據存儲到我的linux / tmp文件夾,而write函數正在HDFS / tmp文件夾中查找數據。
我有同樣的問題。 您需要將.csv放入hdfs。 你可以通過shell來做到這一點。
您通過ssh登錄到您的群集。 然后使用'put'將.csv放入hdfs。
連接到群集后寫入shell:
hdfs dfs'本地文件的路徑/ file.csv'將'路徑放到您選擇的hdfs中的文件夾'
然后,您將使用hdfs路徑加載該文件。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.