繁体   English   中英

使用Spark将数据配置为Kafka主题

[英]Hive data to Kafka topic using Spark

我正在尝试使用Spark将Hive表中的数据写入Kafka主题。

我正在使用查询将900万条记录(每天)的数据帧(每天)写入Kafka主题:

val ds=df.selectExpr("topic", "CAST(key AS STRING)", "CAST(value AS STRING)")
.write.format("kafka").option("kafka.bootstrap.servers", "host1:port1,host2:port2").start()

此查询是否可以将大量数据写入kafka主题?

如果是,完成数据写入需要花费多少时间?

如果没有,还有其他可能的方法吗?

如果任务是每天而不是实时进行上述操作,则可以使用批处理。

这样就可以轻松处理900万条记录。

所需的时间取决于群集配置以及所需的中间处理。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM