簡體   English   中英

使用Spark將數據配置為Kafka主題

[英]Hive data to Kafka topic using Spark

我正在嘗試使用Spark將Hive表中的數據寫入Kafka主題。

我正在使用查詢將900萬條記錄(每天)的數據幀(每天)寫入Kafka主題:

val ds=df.selectExpr("topic", "CAST(key AS STRING)", "CAST(value AS STRING)")
.write.format("kafka").option("kafka.bootstrap.servers", "host1:port1,host2:port2").start()

此查詢是否可以將大量數據寫入kafka主題?

如果是,完成數據寫入需要花費多少時間?

如果沒有,還有其他可能的方法嗎?

如果任務是每天而不是實時進行上述操作,則可以使用批處理。

這樣就可以輕松處理900萬條記錄。

所需的時間取決於群集配置以及所需的中間處理。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM