简体   繁体   English

将流数据插入配置单元

[英]Insert streaming data into hive

My scenerio is In my project we get 200 msg from kafka every mins and needs to store in hive table using avro format. 我的场景是在我的项目中,我们每分钟从kafka得到200 msg,需要使用avro格式存储在hive表中。

If we use insert scriptf or each message, i believe it takes long time to insert for each message. 如果我们使用插入脚本或每条消息,我相信插入每条消息都需要很长时间。 Is there is any idea, for this streaming data which way we have to use to insert into hive with good perforance. 是否有任何想法,对于这种流数据,我们必须使用哪种方式将其插入性能良好的蜂巢中。

Appreciate your help. 感谢您的帮助。

Are you interested in using Apache storm as a streaming mechanism.This can be accomplished using kafka-to-hive bolt using storm which you can easily search for. 您是否对使用Apache Storm作为流机制感兴趣?可以使用可轻松搜索的使用Storm的kafka-hive螺栓来实现。 Please let me know if you are then I can point you in the right direction. 请告诉我您是否是正确的方向。

为什么不创建一个外部表并将msg发送到外部表位置。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM