繁体   English   中英

粉碎HDFS中的小文件

[英]Crushing small files in HDFS

我们针对CDH5在Mesos 0.17上运行Spark 0.9.1。 到目前为止,我们一直在使用CDH系列的'mr1'版本,以便可以在较小的文件上运行filecrush项目。 由于各种原因,我们希望有升级到MR-2的自由。

是否有任何工具可以在Hadoop的map / reduce之外执行此操作? 我们今天使用的filecrush库很简单,因此将模式转换为Spark似乎并不简单。

通过针对MR2库进行重新编译,MR1代码通常不会更改(或很少更改)。 那行不通吗? 这可能很简单。

您不会将其直接转换为Spark,但可以通过映射一堆文件并使用不同的分区输出结果来轻松实现类似的效果。 您可能会遇到与Spark将使用HDFS及其InputFormat将数据读取为拆分相同的问题,这也正是您问题InputFormat

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM