cost 150 ms
如何将 SCollection[SCollection[SomeType]] 展平为 SCollection[SomeType] - How to flatten SCollection[SCollection[SomeType]] into SCollection[SomeType]

我正在使用 Beam(和 Scio,尽管也可以为PCollection回答这个问题)从 BigQuery 中的多个表中读取数据。 因为我正在从动态生成的列表中读取多个数据集(它本身就是一个SCollection[String] ,其中 String 基本上指定了表名),所以我最终得到一个SColle ...

在 flink 集群上远程调试 apache beam 作业 - Remote debug an apache beam job on flink cluster

我正在 flink 集群上运行流式传输光束作业,但出现以下异常。 流作业正在从 apache pulsar 源获取数据,并将 output 数据以 parquet 文件格式写入 Alluxio 数据湖。 我正在使用 Spotify 的 scio 在 Scala 中编写这份工作。一小段代码来强调我想要 ...

Apache 光束作业有时在 Apache 带有 OptimizerPlanEnvironment$ProgramAbortException 的 Flink 集群上失败 - Apache beam job failing sometimes on Apache Flink cluster with OptimizerPlanEnvironment$ProgramAbortException

我一直在运行基于 apache 光束的数据摄取作业,该作业解析输入 CSV 文件并将数据写入接收器。 当一次提交一个作业时(在正常负载情况下),此作业可以正常工作。 但是最近当我开始负载测试时,我开始在一个循环中按顺序安排多个作业,我观察到一些异常和作业失败。 目前,我正在使用脚本通过 Flink ...

Apache 光束 - 滑动 Windows 仅发射最早的活动 Window - Apache Beam - Sliding Windows Only Emit Earliest Active Window

我正在尝试使用 Apache Beam(通过 Scio)运行来自流式源的最后 3 天数据(处理时间)的连续聚合,并且 output 结果来自最早的活动Z05B8C74CBD96FBF2DEZC1A 分钟。 Earliest表示 window 的开始时间最早, active表示 window 的结 ...

Apache 光束有状态 DoFn 周期性 Output 所有 K/V 对 - Apache Beam Stateful DoFn Periodically Output All K/V Pairs

我正在尝试使用有状态的 DoFn(使用@ProcessElement和@StateId ValueState元素)在 Apache Beam(通过 Scio)中聚合(每个键)流数据源。 我认为这最适合我要解决的问题。 要求是: 对于给定的键,记录在所有时间都被聚合(基本上求和) -我不关心以前计算的 ...

Beam/Dataflow 状态处理,ParDo 从不运行 - Beam/Dataflow stateful processing, ParDo never runs

我正在尝试在 Dataflow 上使用 Beam 的有状态处理,但每次尝试输出数据时都会在日志中收到这些错误。 结果是有状态的ParDo + DoFn没有输出任何DoFn : 编辑这似乎是巧合。 似乎有状态的ParDo在窗口触发之前不会输出任何元素。 这样对吗? 此示例使用 Scio 的.ba ...

Cloud Dataflow GlobalWindow 触发器被忽略 - Cloud Dataflow GlobalWindow trigger ignored

使用 Dataflow 运行器运行时,使用 AfterPane.elementCountAtLeast 触发器不起作用,但在本地运行时可以正常工作。 在 Dataflow 上运行时,它只生成一个窗格。 目标是从 Cloud SQL 中提取数据,转换并写入 Cloud Storage。 但是,内存中 ...

SCIO用scio parquet读取parquet文件,生成的case class not found - SCIO read parquet file with scio parquet, the generated case class not found

我有个问题。 我通过 sbt 原型创建了一个 SCIO(Apache Beam)项目:sbt new spotify/scio.g8 此作业的目标是从 GS 读取镶木地板文件当我直接在 SCIO 中使用 Apache Beam 提供的 ParquetIO 时,这项工作(GenericRecord) ...

如何从 SBT(本地)在 Dataflow 上运行 Scio 管道 - How to run a Scio pipeline on Dataflow from SBT (local)

我正在尝试在Dataflow上运行我的第一个Scio管道。 有问题的代码可以在这里找到。 不过我认为这不是太重要。 我的第一个实验是使用DirecRunner读取一些本地 CSV 文件并写入另一个本地 CSV 文件。 这按预期工作。 现在,我正在尝试从GCS读取文件,将输出写入BigQuery并 ...

Scio Apache Beam - 如何正确分离管道代码? - Scio Apache Beam - How to properly separate a pipeline code?

我有一个带有一组 PTransforms 的管道,我的方法变得很长。 我想在一个单独的包中编写我的 DoFns 和我的复合转换,然后在我的主要方法中使用它们。 使用 python 非常简单,我怎样才能用 Scio 实现呢? 我没有看到任何这样做的例子。 :( ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM