[英]Hadoop mapper output to HBase table and a reducer
我正在嘗試編寫一個MapReduce作業,該作業可解析CSV文件,將數據存儲在HBase中並一次性執行reduce函數。 理想情況下,我想
我知道如何使用HBase MultiTableOutputFormat
執行1和2,但不確定如何執行3和4。
非常感謝任何有關如何執行此操作的指示。
我對如何執行此操作有一些想法:
對於1和2,我將使用ImmutableBytesWriteable
作為鍵,而MultiTableOutputFormat
負責從Mapper中進行存儲。 但是對於3我想關鍵是文本。
對於#4,我應該在Mapper中這樣做嗎
映射器通過設置KeyValueTextInputFormat讀取csv。
在映射器代碼中,具有一些邏輯來區分好記錄和壞記錄,並通過使用Put(Hbase Api call)將它們放入Hbase。
在映射器設置中,可以初始化hbaseTable的處理程序。
可以使用context.write(key,value)將好的記錄傳遞給reducer並收集到reducer中
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.