![](/img/trans.png)
[英]Not able to connect to kafka topic using spark streaming (python, jupyter)
[英]Hive data to Kafka topic using Spark
我正在嘗試使用Spark將Hive表中的數據寫入Kafka主題。
我正在使用查詢將900萬條記錄(每天)的數據幀(每天)寫入Kafka主題:
val ds=df.selectExpr("topic", "CAST(key AS STRING)", "CAST(value AS STRING)")
.write.format("kafka").option("kafka.bootstrap.servers", "host1:port1,host2:port2").start()
此查詢是否可以將大量數據寫入kafka主題?
如果是,完成數據寫入需要花費多少時間?
如果沒有,還有其他可能的方法嗎?
如果任務是每天而不是實時進行上述操作,則可以使用批處理。
這樣就可以輕松處理900萬條記錄。
所需的時間取決於群集配置以及所需的中間處理。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.