[英]Read, transform and stream to Hadoop
我需要構建一個服務器,該服務器讀取目錄中的大型csv數據文件(100GB),轉換一些字段並將其流式傳輸到Hadoop集群。
這些文件是在隨機時間(每天100次)從其他服務器復制過來的。 完成復制文件需要很長時間。
我需要:
我的問題是:是否有一個開源的ETL工具可以提供所有這5個工具,並且可以與Hadoop / Spark Stream一起很好地工作? 我認為這個過程是相當標准的,但是我還找不到。
謝謝。
嘗試看看很棒的庫https://github.com/twitter/scalding 。 也許它可以為您指明正確的方向:)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.