![](/img/trans.png)
[英]Apache Beam Select Top N rows from PCollection in Go
我有一個 PCollection,我需要從中選擇 n 個最大的行。 我正在嘗試使用 Go 創建一個數據流管道並堅持這一點。 從上面的代碼中,我需要根據 User.Age 選擇前 5 行,我發現鏈接頂部 package具有 function,但它說它返回單個元素 PCollection。 它有何不同? ...
[英]Apache Beam Select Top N rows from PCollection in Go
我有一個 PCollection,我需要從中選擇 n 個最大的行。 我正在嘗試使用 Go 創建一個數據流管道並堅持這一點。 從上面的代碼中,我需要根據 User.Age 選擇前 5 行,我發現鏈接頂部 package具有 function,但它說它返回單個元素 PCollection。 它有何不同? ...
[英]Apache Beam Java (SDK versions 2.43.0 - 2.44.0) batch loads to BigQuery fail using Storage Write API
我有一個批次 Apache Beam 管道,在我從版本 2.42 升級到 2.43 及更高版本之前,它一直在成功運行。 管道使用 Storage Write API 寫入 Biguery,它現在失敗並顯示錯誤: "Error message from worker: org.apache.beam ...
[英]is there any good way to monitor apache beam dataflow job pipeline state?
我們有一個我們想使用 StatsDClient 監控的數據流作業,所以我們想通過 StatsDClient 將數據流作業的指標發送到我們的 telegraf 以獲得數據流作業的心跳,以確定數據流作業是否正在運行或失敗,以便我們可以為它設置一些警報。 我們嘗試在主 function 中初始化 Sta ...
[英]Dataflow: SDK harness disconnected errors
我們有一個管道可以從存儲在 Cloud Storage 存儲桶中的images中提取嵌入(特征向量)並插入到 BigQuery 表中。 我們一直SDK harness sdk-0-1 disconnected. Dataflow 作業在N1類型的 VM 實例上運行時出錯。 筆記 N2機器工作正常但 ...
[英]Apache Beam ParDo Filter in Go
我是 Python 開發人員,但應該使用 Go 制作數據流管道。與 Python 或 Java 相比,我找不到使用 Go 的 Apache Beam 的示例。 我有以下代碼,其中包含用戶名和年齡結構。 任務是增加年齡,然后過濾年齡。 我找到了增加年齡的方法,但停留在過濾部分。 我嘗試創建一個如下所 ...
[英]How to best model an "Array of collection" for Apache Beam @JavaBeanSchema and BigQuery?
我有一個 Java class 模型數據,用於寫入 BigQuery 和 Elasticsearch。它看起來像這樣:@DefaultSchema(JavaBeanSchema.class) // also lombok annotations for getters, setters, buil ...
[英]Cloud Profiler is not working for all Dataflow jobs
我們正在使用google-api-python-client庫創建數據流作業模板並啟動新作業。 在創建 Dataflow 作業模板期間,默認情況下會為所有作業啟用Cloud Profiler 。 盡管我們這邊沒有做任何改變,但有些工作會被 Profiler 分析出來,有些則不會。 根據日志,Prof ...
[英]Unexpected Apache Beam (Dataframe API) behavior gives tuples instead of dictionaries, breaking BigQuery upload
正在學習 Apache Beam 與 dataframe API 並且遇到了一些我希望專家可以向我解釋的意外行為。 這是我可以深入研究的問題的最簡單版本(在實際版本中,dataframe 轉換更為復雜): 使用DirectRunner (或DataflowRunner )運行此程序會崩潰,並顯示以下 ...
[英]Dataflow Template Metadata regex definition with escaped chars
我正在創建一個 Dataflow Flex 模板,我想定義輸入參數,如此處記錄https://cloud.google.com/dataflow/docs/guides/templates/using-flex-templates#metadata 我已經使用以下 JSON 配置了我的模板 它工作正 ...
[英]How do I trigger Apache Beam side inputs periodically?
我有一個帶有流數據的數據流管道,我正在使用一個 Apache 有界數據源的 Beam Side Input,它可能有更新。 如何觸發此側輸入的定期更新? 例如,側輸入應每 12 小時刷新一次。 參考https://beam.apache.org/documentation/patterns/sid ...
[英]Dataflow from Colab issue
我正在嘗試從 Colab 運行數據流作業並收到以下工作人員錯誤: 我沒有提供flexrs_goal參數,即使我這樣做也不能解決這個問題。 這是我的管道選項: 我的管道非常簡單,它只是: 看起來 sdk 工作人員的命令行參數不知何故被 jupyter 污染了。 我已經回滾到過去的兩個 apache-b ...
[英]httplib2.socks.HTTPError: (403, b'Forbidden') python apache-beam dataflow
我在沒有 inte.net 訪問權限的谷歌雲環境中工作。 我正在嘗試啟動數據流作業。 我正在使用代理訪問 inte.net。 當我用數據流運行一個簡單的 wordcount.py 時,我得到這個錯誤 我的服務帳戶有這個角色: BigQuery 數據編輯器 BigQuery 用戶數據流開發人員數據流 ...
[英]Could not install Apache Beam SDK from a wheel: could not find a Beam SDK wheel among staged files, proceeding to install SDK from source tarball
我在沒有 inte.net 訪問權限的谷歌雲環境中工作。 我正在嘗試啟動一個數據流作業,將它傳遞給 sdk,如下所示:python wordcount.py --no_use_public_ip --sdk_location "<basepath>/dist/package-impor ...
[英]GCP service account issue
我有2個項目在項目 1 下:我創建了一個服務帳戶。 在項目 2 下:我啟用了數據流服務 API。我添加了具有所有者角色的服務帳戶(在項目 1 下創建)。 問題我已經使用 python 成功通過身份驗證進入項目 2。當我嘗試創建時,列出項目 2 下的數據流服務 “403 數據流 API 之前未在項目“ ...
[英]Get wall time from dataflow for a particular stage using python
我正在使用projects.jobs.getMetrics從數據流作業中獲取所有作業指標數據。 但是特定階段的掛鍾時間在響應中不可用。 如何從數據流作業中獲取階段的掛鍾時間? ...
[英]Run Apache-beam pipeline job on existing google cloud VM
我正在創建一個具有谷歌雲 SQL 攝取的 python apache-beam 管道,所以當我部署管道時,會自動創建一個新的虛擬機,它無法訪問我的谷歌雲 SQL 實例,所以我的工作每次都失敗了。 在作業日志中顯示以下錯誤日志 所以我正在尋找一個帶有 python 的 apache-beam 管道選項 ...
[英]How to use RunInference with Beam and a custom pytorch class/model?
我在 GPC 上使用 Dataflow 使用最新版本apache-beam-with-gcp=2.44.0它是自定義 model class 和 Pytorch 用於我的 ML model。Model 需要按以下方式加載: 我正在嘗試使用最近的 RunInference 文檔: 我嘗試以適用於我的 ...
[英]How to delete record from Bigtable
我在數據流中有數據管道; 並嘗試使用 rowkey 從 bigtable 中刪除記錄。 我嘗試了幾種使用方法; 前任 - 但是我無法成功刪除記錄,如果有人能夠使用數據流或使用 java 成功執行刪除,我能否獲得一些示例代碼。 ...
[英]How to get better log from big query schema error
我遇到了同樣的問題: 讀取數據時出錯,錯誤消息:JSON 表遇到太多錯誤,放棄。 行,我很確定它與架構有關: 這里的問題是我有一個大模式(運行數據流作業)並且只是檢查它是否存在小錯誤是乏味的。 有什么方法可以查看更好的錯誤消息/獲取更多實際查明模式的哪一部分是錯誤的日志? ...
[英]Is possible to execute Stored Procedure MySQL Azure using apache beam in cloud dataflow google cloud platform?
我想在雲數據流谷歌雲平台中使用 apache beam 執行存儲過程 MySQL Azure 是否可以在雲數據流谷歌雲平台中使用 apache 光束執行存儲過程 MySQL Azure? 如果可能的話,如何在雲數據流谷歌雲平台中使用apache beam執行存儲過程MySQL Azure? ...