簡體   English   中英

將 json 記錄從 dataframe 列寫入 Spark Streaming 中的 S3

[英]writing json record from dataframe column to S3 in spark streaming

我有一個以下面格式顯示的 drataframe,其中記錄為 json 數據(字符串格式)從 kafka 主題讀取

在此處輸入圖像描述

我只需要將 dataframe 中存在的 json 記錄寫入 S3。

有什么辦法可以解析記錄並將 json 轉換為 dataframe 並寫入 s3?

或提供的任何其他解決方案將有所幫助

我曾嘗試使用 foreach 但無法轉換為 dataframe 以寫入 s3

def foreach_function(self,row):
   print("*"*100)
   print(row[0])
        
query = df.writeStream.foreach(self.foreach_function).start()
query.awaitTermination()

不清楚為什么你需要 Spark。

Kafka Connect是Kafka的一部分,所以只需要配置它使用S3 Kafka Connect sink (開源),支持寫入JSON個文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM