簡體   English   中英

Apache Beam 將數據從 Kafka 流式傳輸到 GCS Bucket(不使用 pubsub)

[英]Apache Beam Streaming data from Kafka to GCS Bucket (Not using pubsub)

我看過很多 Apache Beam 的例子,你從 PubSub 讀取數據並寫入 GCS 存儲桶,但是有沒有使用 KafkaIO 並將其寫入 GCS 存儲桶的示例? 我可以在哪里解析消息並根據消息內容將其放入適當的存儲桶中?

例如

message = {type="type_x", some other attributes....}
message = {type="type_y", some other attributes....}

type_x --> goes to bucket x
type_y --> goes to bucket y

我的用例是將數據從 Kafka 流式傳輸到 GCS 存儲桶,因此如果有人建議在 GCP 中執行此操作的更好方法,也歡迎使用。

謝謝。 問候,阿南特。

您可以使用Secor將消息加載到 GCS 存儲桶。 Secor 還能夠解析傳入的消息並將它們放在同一存儲桶中的不同路徑下。

你可以看看這里的例子 - https://github.com/0x0ece/beam-starter/blob/master/src/main/java/com/dataradiant/beam/examples/StreamWordCount.java

讀取數據元素后,如果您想根據特定數據值寫入多個目的地,您可以使用TupleTagList查看多個輸出,其詳細信息可在此處找到 - https://beam.apache.org/documentation/編程指南/#additional-outputs

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM