繁体   English   中英

是否可以在Apache Flume中加入很多文件?

[英]Is it possible join a lot of files in Apache Flume?

我们的服务器每时每刻都会收到很多文件。 文件大小很小。 大约10 MB。 我们的管理层希望使Hadoop集群能够分析和存储这些文件。 但是将小文件存储在hadoop中并不有效。 在hadoop或Flume中是否有任何选项可以加入(制作一个大文件)此文件? 非常感谢您的帮助。

这就是我的想法:
1)使用Flume的“假脱机目录源”。 通过此源,您可以通过将要摄取的文件放入磁盘上的“假脱机”目录中来摄取数据。 将文件写入该目录。

2)使用Flume所需的任何通道:“内存”或“文件”。 两者都有优点和缺点。

3)使用HDFS Sink写入HDFS。

“后台打印目录源”将在提取(或选择删除)后重命名该文件。 数据还可以在崩溃或重新启动后幸免。 这是文档: https : //flume.apache.org/FlumeUserGuide.html#spooling-directory-source

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM