簡體 English 中英

讀取，轉換並流式傳輸到Hadoop

[英]Read, transform and stream to Hadoop

原文 2015-07-17 06:43:41 1 2 hadoop/ etl

我需要構建一個服務器，該服務器讀取目錄中的大型csv數據文件（100GB），轉換一些字段並將其流式傳輸到Hadoop集群。

這些文件是在隨機時間（每天100次）從其他服務器復制過來的。 完成復制文件需要很長時間。

我需要：

我的問題是：是否有一個開源的ETL工具可以提供所有這5個工具，並且可以與Hadoop / Spark Stream一起很好地工作？ 我認為這個過程是相當標准的，但是我還找不到。

謝謝。

Flume或Kafka將為您服務。 兩者都與Spark和Hadoop很好地集成在一起。

嘗試看看很棒的庫https://github.com/twitter/scalding 。 也許它可以為您指明正確的方向：）

[英]Read Hadoop SequenceFile: weird hex number stream

[英]Hadoop read from standard input stream

[英]Hadoop stream sorting

[英]Pig Hadoop Stream help

[英]How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce

[英]hadoop stream, how to set partition?

[英]Hadoop File Read

[英]Read sequencefile in Hadoop 2.0

[英]Hadoop configurations seem not to be read

[英]Spark cluster - read/write on hadoop

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 閱讀Hadoop SequenceFile：奇怪的十六進制數字流 Hadoop從標准輸入流中讀取 Hadoop流排序豬Hadoop Stream幫助 How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce hadoop流，如何設置分區？ Hadoop文件讀取在Hadoop 2.0中讀取sequencefile 似乎沒有讀取Hadoop配置 Spark集群-在Hadoop上讀寫

相關標簽