簡體   English   中英

是否可以在Apache Flume中加入很多文件?

[英]Is it possible join a lot of files in Apache Flume?

我們的服務器每時每刻都會收到很多文件。 文件大小很小。 大約10 MB。 我們的管理層希望使Hadoop集群能夠分析和存儲這些文件。 但是將小文件存儲在hadoop中並不有效。 在hadoop或Flume中是否有任何選項可以加入(制作一個大文件)此文件? 非常感謝您的幫助。

這就是我的想法:
1)使用Flume的“假脫機目錄源”。 通過此源,您可以通過將要攝取的文件放入磁盤上的“假脫機”目錄中來攝取數據。 將文件寫入該目錄。

2)使用Flume所需的任何通道:“內存”或“文件”。 兩者都有優點和缺點。

3)使用HDFS Sink寫入HDFS。

“后台打印目錄源”將在提取(或選擇刪除)后重命名該文件。 數據還可以在崩潰或重新啟動后幸免。 這是文檔: https : //flume.apache.org/FlumeUserGuide.html#spooling-directory-source

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM