簡體 English 中英

Flume-將文件從文件服務器加載到HDFS

[英]Flume - loading files from file server to HDFS

原文 2013-07-29 12:28:18 8 1 hadoop/ mapreduce/ flume

我想經常將文件從文件服務器加載到HDFS。 較小的文件（2 MB至20 MB）會經常加載到文件服務器中。 這些文件必須加載到HDFS中以進行MR處理。 在將這些文件提供給Map-Reduce作業之前，我看到了2個問題。

如果在運行MR作業時選擇了這些文件並將其加載到HDFS中，則將這些文件加載到HDFS本身將花費很長時間。

這些較小的文件必須合並才能完成MR工作。

問題

Flume可以用來更頻繁地讀取文件服務器中的這些較小文件並存儲在HDFS中嗎？

我知道有CombineFileInputFormat和SequenceFiles可以合並這些文件以進行處理，但是這些較小的文件是否可以在存儲在HDFS中之前進行串聯？

1 個解決方案

問題的可能答案。

從那以后已經有一段時間了，我使用了水槽。 仍然希望他們能提供幫助。

Flume可以用來更頻繁地讀取文件服務器中的這些較小文件並存儲在HDFS中嗎？

由於數據源是可定制的，因此Flume可用於傳輸大量事件數據，包括但不限於網絡流量數據，社交媒體生成的數據，電子郵件消息以及幾乎所有可能的數據源。

注意：Flume不支持將tail作為源。 可以將tail命令包裝在exec源中以流式傳輸文件。

對於拖尾文件，您可以檢查一下

可以跟蹤目錄作為多個文件源的實現。

您可以在此處閱讀有關HDFS接收器的信息，該信息可以寫入HDFS

2 。 我知道有CombineFileInputFormat和SequenceFiles可以合並這些文件以進行處理，但是這些較小的文件是否可以在存儲在HDFS中之前進行串聯？

Flume基本上適用於事件機制。 可以根據經過的時間或數據大小或事件數定期滾動文件（關閉當前文件並創建一個新文件）。 檢查HDFS接收器的相同鏈接。

如果文件數量很大，則可以使用CombineFileINputFormat。 我不知道在寫入HDFS之前如何做到這一點。

注意：

正如我已經說過的，flume在基於事件的機制上起作用，據我所知，它不用於傳輸文件。 如果您在Event的此界面中查看，則會注意到以下方法

byte[] getBody() ：返回此事件中包含的數據的原始字節數組。

void setBody(byte[] body) ：設置此事件中包含的數據的原始字節數組。

因此，事件的最大大小是byte []可以占用的大小。 我不知道您的文件是否可以放入其中。 您必須自己進行測試。 此外，還涉及其他一些條件，我現在不記得了，這些條件可能會阻止您將文件傳輸到HDFS。

Flume到HDFS將文件拆分為大量文件

[英]Flume to HDFS split a file to lots of files

使用Flume將文件從遠程節點傳輸到HDFS

[英]Transferring files from remote node to HDFS with Flume

從卡夫卡到帶有笛子的hdfs僅一個文件

[英]only one file to hdfs from kafka with flume

Flume HDFS Sink無法從Kafka通道在hdfs中創建文件

[英]Flume HDFS sink is not creating files in hdfs from Kafka channel

使用Flume將CSV文件加載到HDFS中（假脫機目錄作為源）

[英]Loading csv file into HDFS using Flume (spool directory as source)

通過 Apache Flume 將日志文件從本地文件系統移動到 HDFS 時出錯

[英]Error in moving log files from local file system to HDFS via Apache Flume

Spark流無法讀取從HDFS中的水槽創建的文件

[英]Spark stream unable to read files created from flume in hdfs

如何使用水槽將數據從大型機文件提取到hadoop HDFS

[英]How to pull the data from mainframe files to hadoop HDFS using flume

Flume Twitter Stream在HDFS中滾動小文件

[英]Flume Twitter Stream rolling small files in HDFS

小文件太多HDFS接收器水槽

[英]Too many small files HDFS Sink Flume

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Flume到HDFS將文件拆分為大量文件使用Flume將文件從遠程節點傳輸到HDFS 從卡夫卡到帶有笛子的hdfs僅一個文件 Flume HDFS Sink無法從Kafka通道在hdfs中創建文件使用Flume將CSV文件加載到HDFS中（假脫機目錄作為源）通過 Apache Flume 將日志文件從本地文件系統移動到 HDFS 時出錯 Spark流無法讀取從HDFS中的水槽創建的文件如何使用水槽將數據從大型機文件提取到hadoop HDFS Flume Twitter Stream在HDFS中滾動小文件小文件太多HDFS接收器水槽

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM