簡體   English   中英

Apache Beam流處理json數據

[英]Apache Beam stream processing of json data

我正在分析Apache Beam數據流處理。 我從事過Apache Kafka流處理(生產者,消費者等)的工作。 我現在想將其與Beam進行比較。

我想以編程方式(Java)使用Apache Beam流化簡單的json數據。

{"UserID":"1","Address":"XXX","ClassNo":"989","UserName":"Stella","ClassType":"YYY"}

有人可以指導我或通過示例鏈接指導我嗎?

這樣做有多個方面:

  • 首先,您需要確定數據來自何處:
    • 您需要在Beam管道中使用某種IO,請參見此處
    • 有很多內置的IO,請參見此處的列表;
    • 通過使用上述鏈接中的IO,您可能會獲得包含這些JSON對象的字符串流;
    • 一些IO可以本地解析Avro和其他格式(PubsubIO),這取決於特定的IO實現;
  • 那么您可能需要轉換數據:

    • 您將需要創建自己的PTransform來處理從JSON字符串到Java類的轉換:
      • 請參閱此處有關PTransforms的部分;
    • 您可以在此處查看此類轉換的示例:
      • 此JsonToRow PTransform接受帶有JSON對象的字符串,並使用Jackson ObjectMapper將其轉換為Beam Row
      • 您可以嘗試自己使用Row對象,也可以實施類似的轉換將JSON字符串轉換為自定義Java類型而不是Row;
  • 您還可以查看Beam源中的examples文件夾

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM