[英]Google Cloud Dataflow - Java SDK vs Python SDK
[英]Google Cloud Dataflow Python SDK updates
在使用 Google Cloud Dataflow Python SDK 時,會發生在開始從 Cloud Storage 讀取大量數據時需要一段時間並導致錯誤AssertionError: Job did not reach to a terminal state after waiting indefinitely
。
通過搜索,我們發現了未解決的問題BEAM-5529 ,它指的是 2.8.0 版中發布的補丁#6535 ,但未出現在發行說明中。
另一方面,當前發布的版本是 google-cloud-dataflow 2.5.0
是否有任何更新政策或個人有責任使用最新版本執行編譯和生成新版本?
請任何幫助或評論將受到歡迎。
根據此處的官方 Google Cloud Platform 文檔:
Cloud Dataflow SDK 2.5.0 是與 Apache Beam SDK 版本分開的最后一個 Cloud Dataflow SDK 版本。 Cloud Dataflow 服務完全支持官方 Apache Beam SDK 版本。
所以是的,google-cloud-dataflow 2.5.0 是最后一個版本,從那個版本開始,你應該使用官方的 apache-beam 版本。 請記住, 您需要使用額外的 [gcp] 安裝庫:
pip install apache-beam[gcp]
最后,應該已經應用了6535 中的修復程序,因為我安裝了庫“pip install apache-beam[gcp]===2.8.0”並且我轉到了文件“apache_beam/runners/dataflow/dataflow_runner.py”和它在那里應用了修復程序。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.