簡體   English   中英

讀取,轉換並流式傳輸到Hadoop

[英]Read, transform and stream to Hadoop

我需要構建一個服務器,該服務器讀取目錄中的大型csv數據文件(100GB),轉換一些字段並將其流式傳輸到Hadoop集群。

這些文件是在隨機時間(每天100次)從其他服務器復制過來的。 完成復制文件需要很長時間。

我需要:

  1. 定期檢查要處理的新文件(即加密和流式傳輸)
  2. 檢查csv是否已完全復制以啟動加密
  3. 並行處理流多個文件,但阻止兩個進程流同一文件
  4. 標記文件正在成功流式傳輸
  5. 將文件標記為傳輸失敗,然后重新開始傳輸過程。

我的問題是:是否有一個開源的ETL工具可以提供所有這5個工具,並且可以與Hadoop / Spark Stream一起很好地工作? 我認為這個過程是相當標准的,但是我還找不到。

謝謝。

FlumeKafka將為您服務。 兩者都與Spark和Hadoop很好地集成在一起。

嘗試看看很棒的庫https://github.com/twitter/scalding 也許它可以為您指明正確的方向:)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM