簡體   English   中英

Spark批處理從多列DataFrame寫入Kafka主題

[英]Spark batch write to Kafka topic from multi-column DataFrame

批處理之后,Spark ETL我需要向Kafka主題寫入包含多個不同列的結果DataFrame。

根據以下Spark文檔https://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html ,要寫入Kafka的數據框在架構中應具有以下必填列:

值(必需)字符串或二進制

正如我之前提到的,我有更多帶有值的列,所以我有一個問題-如何將整個DataFrame行作為一條消息從我的Spark應用程序正確發送給Kafka主題? 我是否需要將所有列中的所有值都用一個值列(將包含所連接的值)連接到新的DataFrame中,還是有更合適的方法來實現呢?

文檔已經暗示了執行此操作的正確方法,並且與您對任何Kafka客戶端所做的操作並沒有真正的不同-您必須先對有效負載進行序列化,然后再發送給Kafka。

如何做到這一點( to_jsonto_csvApache Avro )取決於您的業務需求-除了您(或您的團隊),沒人能回答這個問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM