[英]Crushing small files in HDFS
我們針對CDH5在Mesos 0.17上運行Spark 0.9.1。 到目前為止,我們一直在使用CDH系列的'mr1'版本,以便可以在較小的文件上運行filecrush項目。 由於各種原因,我們希望有升級到MR-2的自由。
是否有任何工具可以在Hadoop的map / reduce之外執行此操作? 我們今天使用的filecrush庫很簡單,因此將模式轉換為Spark似乎並不簡單。
通過針對MR2庫進行重新編譯,MR1代碼通常不會更改(或很少更改)。 那行不通嗎? 這可能很簡單。
您不會將其直接轉換為Spark,但可以通過映射一堆文件並使用不同的分區輸出結果來輕松實現類似的效果。 您可能會遇到與Spark將使用HDFS及其InputFormat
將數據讀取為拆分相同的問題,這也正是您問題InputFormat
。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.