繁体 English 中英

Hadoop将多个零件文件合并为一个文件

[英]Hadoop Combine Multiple part files into single file

原文 2016-02-10 11:58:16 9 2 java/ hadoop/ mapreduce/ hdfs

目前我有

part-00001 part-00002

我知道使用hdfs -getmerge是将这些文件合并为一个文件的最佳方法。 但是，是否可以通过编程方式进行 ？

我尝试使用MultipleOutput ，但是它不起作用。 我还尝试编写自己的CustomOutputFormat但是由于在并行将其并行写入文件时使用了多个reducer，因此在关闭Dataoutputstream时会出现org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException错误。

2 个解决方案

您始终可以从Java代码中使用FileSystem类，可能只需要调用concat方法即可。

MultipleOutput几乎相反。 除了生成part-xxxxx文件之外，它还会生成自定义名称的文件，这通常意味着比以前更多的文件。

CustomOuputFormat也不是一个好主意，因为在任何情况下，您的输出文件都将与减速器数量一样多。 输出格式不会改变它。

使用单个reducer（ setNumReduceTasks(1) ）可能是一个setNumReduceTasks(1)解决方案，但是不必要地昂贵，因为它“杀死”了并行性（所有数据都由单个任务处理）。 仅在您的数据很小时才考虑使用它，否则请避免使用它。

另一种解决方案是在MapReduce作业完成后，从Java代码中简单地将hdfs -getmerge作为shell命令调用。

您无法通过Hadoop对其进行编程编程，并且这些文件的创建取决于所配置的reducer数量。 为什么需要以编程方式合并这些文件？ 如果要作为另一项工作输入，则始终可以将目录提及为输入，如果有很多小CombineInputFormat文件，则可以使用CombineInputFormat 。 否则，如果要合并自己的hdfs -getmerge是最佳选择。

将多个csv文件中的表数据合并到ruby中的一个单独的csv文件中

[英]combine the table data in multiple csv files into one single csv file in ruby

如何将多个Excel文件合并到具有多个工作表的单个Excel工作簿中？

[英]How to combine multiple Excel files into single Excel workbook with multiple sheets?

如何将多个多页 tif 文件合并为一个 tif

[英]How to combine multiple multi-page tif files into a single tif

如何在Java中将多个xml文件合并为单个字符串

[英]How to combine multiple xml files into a single string in java

组合两个wave文件以在Java中创建一个更平滑的wave文件

[英]Combine two wave files to create a single smoother wave file in java

避免在写入多个输出文件的Hadoop Pig脚本中发生文件冲突

[英]Avoiding file collisions in Hadoop Pig script that writes multiple output files

在Hadoop Map Reduce中重命名部件文件

[英]Renaming Part Files in Hadoop Map Reduce

将多个 tif 和 Jpeg 组合成单个 tif 文件具有巨大的大小

[英]Combine multiple tif and Jpeg into single tif file has huge size

读取文件作为hadoop中的单个记录

[英]Reading file as single record in hadoop

关于将多个文件拼接成一个文件

[英]Regarding stitching of multiple files into a single file

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 将多个csv文件中的表数据合并到ruby中的一个单独的csv文件中如何将多个Excel文件合并到具有多个工作表的单个Excel工作簿中？如何将多个多页 tif 文件合并为一个 tif 如何在Java中将多个xml文件合并为单个字符串组合两个wave文件以在Java中创建一个更平滑的wave文件避免在写入多个输出文件的Hadoop Pig脚本中发生文件冲突在Hadoop Map Reduce中重命名部件文件将多个 tif 和 Jpeg 组合成单个 tif 文件具有巨大的大小读取文件作为hadoop中的单个记录关于将多个文件拼接成一个文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM