Sparklyr copy_to失敗

Question

我正在使用Sparklyr庫來讀取和寫入從R到HDFS的數據。 讀取數據按預期工作，但寫作會產生問題。

為了能夠使用spark_write_csv函數，我需要將我的R data.frames轉換為Spark對象。 我使用sparklyr sdf_copy_to函數（也嘗試使用copy_to）。 但是，我總是得到錯誤

碼：

table1 <- sdf_copy_to(sc,dataframe,OVERWRITE=TRUE)
spark_write_csv(table1, "path")

錯誤：

錯誤：org.apache.hadoop.mapred.InvalidInputException：輸入路徑不存在：hdfs：//iacchadoopdev01.dap：8020 / tmp / Rtmp2gpelH / spark_serialize_62547a7b0f9ad206fd384af04e585deb3a2636ca7b1f026943d4cc1d11c7759a.csv

有人遇到了同樣的問題，知道如何解決這個問題嗎？

可能的原因可能是sdf_copy_to函數將數據存儲到我的linux / tmp文件夾，而write函數正在HDFS / tmp文件夾中查找數據。

Answer 1

我有同樣的問題。 您需要將.csv放入hdfs。 你可以通過shell來做到這一點。

您通過ssh登錄到您的群集。 然后使用'put'將.csv放入hdfs。

連接到群集后寫入shell：

hdfs dfs'本地文件的路徑/ file.csv'將'路徑放到您選擇的hdfs中的文件夾'

然后，您將使用hdfs路徑加載該文件。

Sparklyr copy_to失敗

問題描述

1 個解決方案

解決方案1
0 2017-05-30 15:30:56

Sparklyr copy_to失敗

問題描述

1 個解決方案

解決方案1 0 2017-05-30 15:30:56

解決方案1
0 2017-05-30 15:30:56