[英]Google Cloud Dataflow User-Defined MySQL Source
我正在編寫Google Dataflow Pipeline,並且作為源之一,我需要通過查詢獲得MySQL結果集。 那么幾個問題:
謝謝大家!
目前,Cloud Dataflow不提供MySQL輸入源。
實現對此的支持的首選方法是實現可以處理MySQL查詢的用戶定義的輸入源 。
另一種方法是在主程序中執行查詢,並將查詢結果分級到GCS中的臨時位置,使用Dataflow處理結果,並臨時刪除文件。
希望這可以幫助
JDBC連接器剛剛添加到Apache Beam(孵化) 。 請參閱JdbcIO 。
您可以在上面的例子中澄清對GroupByKey的需求嗎? 由於之前的ParDo(ReadQueryResults)返回主鍵上的鍵,因此GroupByKey實際上不會為結果集的每一行創建一個組嗎? 即使沒有GroupByKey,后續的ParDo(重組)也會並行化每行的處理,對嗎?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.