[英]Spark : Best way to Broadcast KafkaProducer to Spark streaming
为了广播KafkaProducer以激发执行者,我创建了一个如下的包装器:
public class KafkaSink implements Serializable {
private static KafkaProducer<String, String> producer = null;
public KafkaProducer<String, String> getInstance(final Properties properties) {
if(producer == null) {
producer = new KafkaProducer<>(properties);
}
return producer;
}
public void close() {
producer.close();
}
}
并使用如下
JavaSparkContext jsc = new JavaSparkContext(sc);
Broadcast<KafkaSink> kafkaSinkBroadcast = jsc.broadcast(new KafkaSink()));
dataset.toJavaRDD().foreach(row -> kafkaSinkBroadcast.getValue().getInstance(kafkaProducerProps()).send(new ProducerRecord<String, String>(topic, row.mkString(", "))))
我只是想知道它是正确的方法还是最好的方法是什么
我真的可以推荐此博客文章 。 简而言之,您应该通过传递“配方”来创建Kafka生产者,为每个分区创建一个可序列化的接收器。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.