簡體   English   中英

Google Cloud Dataflow用戶定義的MySQL源代碼

[英]Google Cloud Dataflow User-Defined MySQL Source

我正在編寫Google Dataflow Pipeline,並且作為之一,我需要通過查詢獲得MySQL結果集。 那么幾個問題:

  1. 作為我的管道中的一個步驟,從MySQL中提取數據的正確方法是什么?這可以簡單地使用JDBC在線完成嗎?
  2. 在我確實需要實現“用戶定義的數據格式”包裝MySQL作為源的情況下 ,是否有人知道實現是否已經存在並且我不需要重新發明輪子? (不要誤解我的意思,我會喜歡寫它,但我想這將是一個非常常見的情況,使用MySQL作為源)

謝謝大家!

目前,Cloud Dataflow不提供MySQL輸入源。

實現對此的支持的首選方法是實現可以處理MySQL查詢的用戶定義的輸入源

另一種方法是在主程序中執行查詢,並將查詢結果分級到GCS中的臨時位置,使用Dataflow處理結果,並臨時刪除文件。

希望這可以幫助

JDBC連接器剛剛添加到Apache Beam(孵化) 請參閱JdbcIO

您可以在上面的例子中澄清對GroupByKey的需求嗎? 由於之前的ParDo(ReadQueryResults)返回主鍵上的鍵,因此GroupByKey實際上不會為結果集的每一行創建一個組嗎? 即使沒有GroupByKey,后續的ParDo(重組)也會並行化每行的處理,對嗎?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM