使用Spark將數據配置為Kafka主題

Question

我正在嘗試使用Spark將Hive表中的數據寫入Kafka主題。

我正在使用查詢將900萬條記錄（每天）的數據幀（每天）寫入Kafka主題：

val ds=df.selectExpr("topic", "CAST(key AS STRING)", "CAST(value AS STRING)")
.write.format("kafka").option("kafka.bootstrap.servers", "host1:port1,host2:port2").start()

此查詢是否可以將大量數據寫入kafka主題？

如果是，完成數據寫入需要花費多少時間？

如果沒有，還有其他可能的方法嗎？

Answer 1

如果任務是每天而不是實時進行上述操作，則可以使用批處理。

這樣就可以輕松處理900萬條記錄。

所需的時間取決於群集配置以及所需的中間處理。

使用Spark將數據配置為Kafka主題

問題描述

1 個解決方案

解決方案1
0 2019-07-22 18:02:27

使用Spark將數據配置為Kafka主題

問題描述

1 個解決方案

解決方案1 0 2019-07-22 18:02:27

解決方案1
0 2019-07-22 18:02:27