saveAsTextFile（）將最終的RDD寫為單個文本文件--Apache Spark

Question

我正在使用Apache Spark處理批處理應用程序，我想將最終的RDD寫為文本文件，目前我正在使用RDD中提供的saveAsTextFile("filePath")方法。

我的文本文件包含用\分隔符分隔的字段。 所以在模型類toString（）方法中，我添加了所有用\分隔符分隔的字段。

這是處理這個問題的正確方法嗎？ 或任何其他最佳方法？

如果我使用Java中提供的FileWriter類迭代RDD並編寫文件內容，該怎么辦？

請告知此事。

此致，尚卡爾

Answer 1

要寫為單個文件，有幾個選項。 如果您寫入HDFS或類似的分布式商店，您可以先將RDD coalesce到一個分區（注意您的數據必須適合單個工作人員），或者您可以將數據collect到驅動程序然后使用文件編寫器。

Answer 2

public static boolean copyMerge(SparkConf sparkConf, JavaRDD rdd, String dstPath) throws IOException, URISyntaxException {
    Configuration hadoopConf = sparkConf.hadoopConfiguration();
    hadoopConf.set("fs.s3.awsAccessKeyId", awsAccessKey);
    hadoopConf.set("fs.s3.awsSecretAccessKey", awsSecretKey);
    String tempFolder = "s3://bucket/folder";
    rdd.saveAsTextFile(tempFolder);
    FileSystem hdfs = FileSystem.get(new URI(tempFolder), hadoopConfig);
    return FileUtil.copyMerge(hdfs, new Path(tempFolder), hdfs, new Path(dstPath), false, hadoopConfig, null);
}

該解決方案適用於S3或任何HDFS系統。 分兩步完成：

通過saveAsTextFile保存RDD，這會在文件夾中生成多個文件。
運行Hadoop“copyMerge”。

Answer 3

而不是收集和收集它給驅動程序，我寧願建議使用合並，這將有利於減少內存問題

saveAsTextFile（）將最終的RDD寫為單個文本文件--Apache Spark

問題描述

3 個解決方案

解決方案1
3 已采納 2015-06-30 20:34:23

解決方案2
0 2018-04-21 19:22:01

解決方案3
0 2018-04-26 05:15:22

saveAsTextFile（）將最終的RDD寫為單個文本文件--Apache Spark

問題描述

3 個解決方案

解決方案1 3 已采納 2015-06-30 20:34:23

解決方案2 0 2018-04-21 19:22:01

解決方案3 0 2018-04-26 05:15:22

解決方案1
3 已采納 2015-06-30 20:34:23

解決方案2
0 2018-04-21 19:22:01

解決方案3
0 2018-04-26 05:15:22