繁体 English 中英

粉碎HDFS中的小文件

[英]Crushing small files in HDFS

原文 2014-04-16 02:57:08 7 1 hadoop/ hdfs/ apache-spark/ cloudera-cdh

我们针对CDH5在Mesos 0.17上运行Spark 0.9.1。 到目前为止，我们一直在使用CDH系列的'mr1'版本，以便可以在较小的文件上运行filecrush项目。 由于各种原因，我们希望有升级到MR-2的自由。

是否有任何工具可以在Hadoop的map / reduce之外执行此操作？ 我们今天使用的filecrush库很简单，因此将模式转换为Spark似乎并不简单。

通过针对MR2库进行重新编译，MR1代码通常不会更改（或很少更改）。 那行不通吗？ 这可能很简单。

您不会将其直接转换为Spark，但可以通过映射一堆文件并使用不同的分区输出结果来轻松实现类似的效果。 您可能会遇到与Spark将使用HDFS及其InputFormat将数据读取为拆分相同的问题，这也正是您问题InputFormat 。

[英]HDFS performance for small files

[英]HDFS and small files - part 2

[英]Writing small files in HDFS

[英]Small files and HDFS blocks

[英]Solution to small files bottleneck in hdfs

[英]Archiving incoming small hdfs files

[英]Flume Twitter Stream rolling small files in HDFS

[英]Too many small files HDFS Sink Flume

[英]Flume HDFS sink keeps rolling small files

[英]How HDFS and MapReduce work with small files

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 小文件的HDFS性能 HDFS和小文件-第2部分在HDFS中写入小文件小文件和HDFS块 HDFS中小文件瓶颈的解决方案存档传入的小型HDFS文件 Flume Twitter Stream在HDFS中滚动小文件小文件太多HDFS接收器水槽 Flume HDFS接收器不断滚动小文件 HDFS和MapReduce如何处理小文件

相关标签