[英]Not able to connect to kafka topic using spark streaming (python, jupyter)
[英]Hive data to Kafka topic using Spark
我正在尝试使用Spark将Hive表中的数据写入Kafka主题。
我正在使用查询将900万条记录(每天)的数据帧(每天)写入Kafka主题:
val ds=df.selectExpr("topic", "CAST(key AS STRING)", "CAST(value AS STRING)")
.write.format("kafka").option("kafka.bootstrap.servers", "host1:port1,host2:port2").start()
此查询是否可以将大量数据写入kafka主题?
如果是,完成数据写入需要花费多少时间?
如果没有,还有其他可能的方法吗?
如果任务是每天而不是实时进行上述操作,则可以使用批处理。
这样就可以轻松处理900万条记录。
所需的时间取决于群集配置以及所需的中间处理。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.