cost 247 ms
Apache Beam Select Go 中 PCollection 的前 N 行

[英]Apache Beam Select Top N rows from PCollection in Go

我有一個 PCollection,我需要從中選擇 n 個最大的行。 我正在嘗試使用 Go 創建一個數據流管道並堅持這一點。 從上面的代碼中,我需要根據 User.Age 選擇前 5 行,我發現鏈接頂部 package具有 function,但它說它返回單個元素 PCollection。 它有何不同? ...

Apache Beam Java(SDK 版本 2.43.0 - 2.44.0)批量加載到 BigQuery 失敗使用存儲寫入 API

[英]Apache Beam Java (SDK versions 2.43.0 - 2.44.0) batch loads to BigQuery fail using Storage Write API

我有一個批次 Apache Beam 管道,在我從版本 2.42 升級到 2.43 及更高版本之前,它一直在成功運行。 管道使用 Storage Write API 寫入 Biguery,它現在失敗並顯示錯誤: "Error message from worker: org.apache.beam ...

有什么好的方法可以監控 apache 光束數據流作業管道 state?

[英]is there any good way to monitor apache beam dataflow job pipeline state?

我們有一個我們想使用 StatsDClient 監控的數據流作業,所以我們想通過 StatsDClient 將數據流作業的指標發送到我們的 telegraf 以獲得數據流作業的心跳,以確定數據流作業是否正在運行或失敗,以便我們可以為它設置一些警報。 我們嘗試在主 function 中初始化 Sta ...

Apache 光束 ParDo 濾波器 Go

[英]Apache Beam ParDo Filter in Go

我是 Python 開發人員,但應該使用 Go 制作數據流管道。與 Python 或 Java 相比,我找不到使用 Go 的 Apache Beam 的示例。 我有以下代碼,其中包含用戶名和年齡結構。 任務是增加年齡,然后過濾年齡。 我找到了增加年齡的方法,但停留在過濾部分。 我嘗試創建一個如下所 ...

Cloud Profiler 不適用於所有 Dataflow 作業

[英]Cloud Profiler is not working for all Dataflow jobs

我們正在使用google-api-python-client庫創建數據流作業模板並啟動新作業。 在創建 Dataflow 作業模板期間,默認情況下會為所有作業啟用Cloud Profiler 。 盡管我們這邊沒有做任何改變,但有些工作會被 Profiler 分析出來,有些則不會。 根據日志,Prof ...

意外的 Apache Beam(Dataframe API)行為給出了元組而不是字典,破壞了 BigQuery 上傳

[英]Unexpected Apache Beam (Dataframe API) behavior gives tuples instead of dictionaries, breaking BigQuery upload

正在學習 Apache Beam 與 dataframe API 並且遇到了一些我希望專家可以向我解釋的意外行為。 這是我可以深入研究的問題的最簡單版本(在實際版本中,dataframe 轉換更為復雜): 使用DirectRunner (或DataflowRunner )運行此程序會崩潰,並顯示以下 ...

如何定期觸發 Apache Beam 側輸入?

[英]How do I trigger Apache Beam side inputs periodically?

我有一個帶有流數據的數據流管道,我正在使用一個 Apache 有界數據源的 Beam Side Input,它可能有更新。 如何觸發此側輸入的定期更新? 例如,側輸入應每 12 小時刷新一次。 參考https://beam.apache.org/documentation/patterns/sid ...

來自 Colab 問題的數據流

[英]Dataflow from Colab issue

我正在嘗試從 Colab 運行數據流作業並收到以下工作人員錯誤: 我沒有提供flexrs_goal參數,即使我這樣做也不能解決這個問題。 這是我的管道選項: 我的管道非常簡單,它只是: 看起來 sdk 工作人員的命令行參數不知何故被 jupyter 污染了。 我已經回滾到過去的兩個 apache-b ...

httplib2.socks.HTTPError: (403, b'Forbidden') python apache-beam 數據流

[英]httplib2.socks.HTTPError: (403, b'Forbidden') python apache-beam dataflow

我在沒有 inte.net 訪問權限的谷歌雲環境中工作。 我正在嘗試啟動數據流作業。 我正在使用代理訪問 inte.net。 當我用數據流運行一個簡單的 wordcount.py 時,我得到這個錯誤 我的服務帳戶有這個角色: BigQuery 數據編輯器 BigQuery 用戶數據流開發人員數據流 ...

無法從 wheel 安裝 Apache Beam SDK:在暫存文件中找不到 Beam SDK wheel,繼續從源 tarball 安裝 SDK

[英]Could not install Apache Beam SDK from a wheel: could not find a Beam SDK wheel among staged files, proceeding to install SDK from source tarball

我在沒有 inte.net 訪問權限的谷歌雲環境中工作。 我正在嘗試啟動一個數據流作業,將它傳遞給 sdk,如下所示:python wordcount.py --no_use_public_ip --sdk_location "<basepath>/dist/package-impor ...

GCP 服務帳號問題

[英]GCP service account issue

我有2個項目在項目 1 下:我創建了一個服務帳戶。 在項目 2 下:我啟用了數據流服務 API。我添加了具有所有者角色的服務帳戶(在項目 1 下創建)。 問題我已經使用 python 成功通過身份驗證進入項目 2。當我嘗試創建時,列出項目 2 下的數據流服務 “403 數據流 API 之前未在項目“ ...

在現有的谷歌雲 VM 上運行 Apache-beam 管道作業

[英]Run Apache-beam pipeline job on existing google cloud VM

我正在創建一個具有谷歌雲 SQL 攝取的 python apache-beam 管道,所以當我部署管道時,會自動創建一個新的虛擬機,它無法訪問我的谷歌雲 SQL 實例,所以我的工作每次都失敗了。 在作業日志中顯示以下錯誤日志 所以我正在尋找一個帶有 python 的 apache-beam 管道選項 ...

如何從 Bigtable 中刪除記錄

[英]How to delete record from Bigtable

我在數據流中有數據管道; 並嘗試使用 rowkey 從 bigtable 中刪除記錄。 我嘗試了幾種使用方法; 前任 - 但是我無法成功刪除記錄,如果有人能夠使用數據流或使用 java 成功執行刪除,我能否獲得一些示例代碼。 ...

如何從大查詢模式錯誤中獲取更好的日志

[英]How to get better log from big query schema error

我遇到了同樣的問題: 讀取數據時出錯,錯誤消息:JSON 表遇到太多錯誤,放棄。 行,我很確定它與架構有關: 這里的問題是我有一個大模式(運行數據流作業)並且只是檢查它是否存在小錯誤是乏味的。 有什么方法可以查看更好的錯誤消息/獲取更多實際查明模式的哪一部分是錯誤的日志? ...

是否可以在雲數據流谷歌雲平台中使用 apache 光束執行存儲過程 MySQL Azure?

[英]Is possible to execute Stored Procedure MySQL Azure using apache beam in cloud dataflow google cloud platform?

我想在雲數據流谷歌雲平台中使用 apache beam 執行存儲過程 MySQL Azure 是否可以在雲數據流谷歌雲平台中使用 apache 光束執行存儲過程 MySQL Azure? 如果可能的話,如何在雲數據流谷歌雲平台中使用apache beam執行存儲過程MySQL Azure? ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM