簡體 English 中英

粉碎HDFS中的小文件

[英]Crushing small files in HDFS

原文 2014-04-16 02:57:08 7 1 hadoop/ hdfs/ apache-spark/ cloudera-cdh

我們針對CDH5在Mesos 0.17上運行Spark 0.9.1。 到目前為止，我們一直在使用CDH系列的'mr1'版本，以便可以在較小的文件上運行filecrush項目。 由於各種原因，我們希望有升級到MR-2的自由。

是否有任何工具可以在Hadoop的map / reduce之外執行此操作？ 我們今天使用的filecrush庫很簡單，因此將模式轉換為Spark似乎並不簡單。

通過針對MR2庫進行重新編譯，MR1代碼通常不會更改（或很少更改）。 那行不通嗎？ 這可能很簡單。

您不會將其直接轉換為Spark，但可以通過映射一堆文件並使用不同的分區輸出結果來輕松實現類似的效果。 您可能會遇到與Spark將使用HDFS及其InputFormat將數據讀取為拆分相同的問題，這也正是您問題InputFormat 。

[英]HDFS performance for small files

[英]HDFS and small files - part 2

[英]Writing small files in HDFS

[英]Small files and HDFS blocks

[英]Solution to small files bottleneck in hdfs

[英]Archiving incoming small hdfs files

[英]Flume Twitter Stream rolling small files in HDFS

[英]Too many small files HDFS Sink Flume

[英]Flume HDFS sink keeps rolling small files

[英]How HDFS and MapReduce work with small files

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 小文件的HDFS性能 HDFS和小文件-第2部分在HDFS中寫入小文件小文件和HDFS塊 HDFS中小文件瓶頸的解決方案存檔傳入的小型HDFS文件 Flume Twitter Stream在HDFS中滾動小文件小文件太多HDFS接收器水槽 Flume HDFS接收器不斷滾動小文件 HDFS和MapReduce如何處理小文件

相關標簽