Apache Beam Select Go 中 PCollection 的前 N 行

[英]Apache Beam Select Top N rows from PCollection in Go

我有一個 PCollection,我需要從中選擇 n 個最大的行。 我正在嘗試使用 Go 創建一個數據流管道並堅持這一點。 從上面的代碼中,我需要根據 User.Age 選擇前 5 行,我發現鏈接頂部 package具有 function,但它說它返回單個元素 PCollection。 它有何不同? ...

Apache Beam Java(SDK 版本 2.43.0 - 2.44.0)批量加載到 BigQuery 失敗使用存儲寫入 API

[英]Apache Beam Java (SDK versions 2.43.0 - 2.44.0) batch loads to BigQuery fail using Storage Write API

我有一個批次 Apache Beam 管道,在我從版本 2.42 升級到 2.43 及更高版本之前,它一直在成功運行。 管道使用 Storage Write API 寫入 Biguery,它現在失敗並顯示錯誤: "Error message from worker: org.apache.beam ...

Apache 光束 ParDo 濾波器 Go

[英]Apache Beam ParDo Filter in Go

我是 Python 開發人員,但應該使用 Go 制作數據流管道。與 Python 或 Java 相比,我找不到使用 Go 的 Apache Beam 的示例。 我有以下代碼,其中包含用戶名和年齡結構。 任務是增加年齡,然后過濾年齡。 我找到了增加年齡的方法,但停留在過濾部分。 我嘗試創建一個如下所 ...

Cloud Profiler 不適用於所有 Dataflow 作業

[英]Cloud Profiler is not working for all Dataflow jobs

我們正在使用google-api-python-client庫創建數據流作業模板並啟動新作業。 在創建 Dataflow 作業模板期間,默認情況下會為所有作業啟用Cloud Profiler 。 盡管我們這邊沒有做任何改變,但有些工作會被 Profiler 分析出來,有些則不會。 根據日志,Prof ...

Caused by: java.lang.IllegalStateException: Could not read class: VirtualFile: Kotlin+ Apache 梁定義的跑步者

[英]Caused by: java.lang.IllegalStateException: Could not read class: VirtualFile: Kotlin+ Apache Beam defined runner

我使用 Kotlin + Apache Beam 實現了一個示例來定義管道的 Kotlin 屬性,但是當我運行該項目時出現錯誤:Caused by: java.lang.IllegalStateException: Could not read class: VirtualFile: /Users/ ...

PTransform on Side Input 導致警告和性能不佳

[英]PTransform on Side Input results in warning and bad performance

我想使用 Apache Beam 將 Transform 應用於側輸入 PCollection。 應為基礎 PCollection 的每個元素執行側輸入的轉換,並從相應的元素中讀取轉換的詳細信息。 它有點工作,但它會為 base_data PCollection 的每個元素觸發以下警告: (tes ...

意外的 Apache Beam(Dataframe API)行為給出了元組而不是字典,破壞了 BigQuery 上傳

[英]Unexpected Apache Beam (Dataframe API) behavior gives tuples instead of dictionaries, breaking BigQuery upload

正在學習 Apache Beam 與 dataframe API 並且遇到了一些我希望專家可以向我解釋的意外行為。 這是我可以深入研究的問題的最簡單版本(在實際版本中,dataframe 轉換更為復雜): 使用DirectRunner (或DataflowRunner )運行此程序會崩潰,並顯示以下 ...

如何定期觸發 Apache Beam 側輸入?

[英]How do I trigger Apache Beam side inputs periodically?

我有一個帶有流數據的數據流管道,我正在使用一個 Apache 有界數據源的 Beam Side Input,它可能有更新。 如何觸發此側輸入的定期更新? 例如,側輸入應每 12 小時刷新一次。 參考 ...

來自 Colab 問題的數據流

[英]Dataflow from Colab issue

我正在嘗試從 Colab 運行數據流作業並收到以下工作人員錯誤: 我沒有提供flexrs_goal參數,即使我這樣做也不能解決這個問題。 這是我的管道選項: 我的管道非常簡單,它只是: 看起來 sdk 工作人員的命令行參數不知何故被 jupyter 污染了。 我已經回滾到過去的兩個 apache-b ...

httplib2.socks.HTTPError: (403, b'Forbidden') python apache-beam 數據流

[英]httplib2.socks.HTTPError: (403, b'Forbidden') python apache-beam dataflow

我在沒有 訪問權限的谷歌雲環境中工作。 我正在嘗試啟動數據流作業。 我正在使用代理訪問。 當我用數據流運行一個簡單的 時,我得到這個錯誤 我的服務帳戶有這個角色: BigQuery 數據編輯器 BigQuery 用戶數據流開發人員數據流 ...

無法從 wheel 安裝 Apache Beam SDK:在暫存文件中找不到 Beam SDK wheel,繼續從源 tarball 安裝 SDK

[英]Could not install Apache Beam SDK from a wheel: could not find a Beam SDK wheel among staged files, proceeding to install SDK from source tarball

我在沒有 訪問權限的谷歌雲環境中工作。 我正在嘗試啟動一個數據流作業,將它傳遞給 sdk,如下所示:python --no_use_public_ip --sdk_location "<basepath>/dist/package-impor ...

在現有的谷歌雲 VM 上運行 Apache-beam 管道作業

[英]Run Apache-beam pipeline job on existing google cloud VM

我正在創建一個具有谷歌雲 SQL 攝取的 python apache-beam 管道,所以當我部署管道時,會自動創建一個新的虛擬機,它無法訪問我的谷歌雲 SQL 實例,所以我的工作每次都失敗了。 在作業日志中顯示以下錯誤日志 所以我正在尋找一個帶有 python 的 apache-beam 管道選項 ...

Apache beam TypeError:元組索引必須是整數或切片,而不是 str [運行 'WriteToParquet/Write/WriteImpl/WriteBundles']

[英]Apache beam TypeError: tuple indices must be integers or slices, not str [while running 'WriteToParquet/Write/WriteImpl/WriteBundles']

我正在嘗試從 MSSQL 數據庫收集數據並使用 Apache Beam 將其寫入 Google Cloud Storage。 我能夠提取表格數據並編寫一個簡單的 csv 或 txt 文檔,但我似乎無法將其轉換為鑲木地板格式。 它失敗了:TypeError: tuple indices must b ...

是否可以在雲數據流谷歌雲平台中使用 apache 光束執行存儲過程 MySQL Azure?

[英]Is possible to execute Stored Procedure MySQL Azure using apache beam in cloud dataflow google cloud platform?

我想在雲數據流谷歌雲平台中使用 apache beam 執行存儲過程 MySQL Azure 是否可以在雲數據流谷歌雲平台中使用 apache 光束執行存儲過程 MySQL Azure? 如果可能的話,如何在雲數據流谷歌雲平台中使用apache beam執行存儲過程MySQL Azure? ...


[英]Data not getting written to Joining Column

以下 Python Apache Beam 代碼未將 Null 值寫入 Bigquery 字段sum_rpp_million 。 所有其他列都按預期加載。 我期望它應該將在 PCollection data_sum 計算的 Sum 寫入data_loading data_sum的所有記錄。 請幫助我 ...

Apache Beam KafkaIO Reader & Writer - 錯誤處理和重試機制

[英]Apache Beam KafkaIO Reader & Writer - Error handling and Retry mechanism

我正在研究基於 Apache Beam Pipeline 的實現,我使用來自 Kafka stream 的數據。進行一些處理后,我需要將處理后的數據發布到三個不同的 Kafka 主題中。 作為跑步者,我使用 Apache Flink。 我的問題是,如何處理KafkaIO reader和writer中 ...

升級雲數據流模板 (Java SDK) 的 Beam 版本時的依賴沖突

[英]Dependency conflict when upgrading Beam version for Cloud Dataflow Template (Java SDK)

我正在運行自定義的 Dataflow PubsubToBigQuery 模板。 它是一個 Java SDK 模板。 現在,我正在嘗試將 Beam 版本從 2.36.0 升級到 2.43.0。 我的模板使用了一個雲存儲庫,它在 pom 文件中聲明為: 如前所述,我將 Beam 版本更改為 2.43.0 ...

