我正在尝试修改此示例,如下所示: 上面给了我以下错误: 我怎样才能解决这个问题? ...
我正在尝试修改此示例,如下所示: 上面给了我以下错误: 我怎样才能解决这个问题? ...
我正在使用 Beam(和 Scio,尽管也可以为PCollection回答这个问题)从 BigQuery 中的多个表中读取数据。 因为我正在从动态生成的列表中读取多个数据集(它本身就是一个SCollection[String] ,其中 String 基本上指定了表名),所以我最终得到一个SColle ...
我正在数据流中实现一组管道我在找你为什么选择scala而不是apache梁? 为什么你选择一个或另一个? ...
我在 Google Cloud DataFlow(带有 Scio SDK)上使用 Apache Beam 2.28.0。 我有一个很大的输入PCollection (有界),我想将它限制/采样到固定数量的元素,但我想尽快开始下游处理。 目前,当我的输入PCollection有例如 20M 个元素并 ...
I want to know about, is it possible to Fetch a Spotify music list without an Access token or Aothuentication in mobile flutter SDK or web API. 因为我只想 ...
我正在 flink 集群上运行流式传输光束作业,但出现以下异常。 流作业正在从 apache pulsar 源获取数据,并将 output 数据以 parquet 文件格式写入 Alluxio 数据湖。 我正在使用 Spotify 的 scio 在 Scala 中编写这份工作。一小段代码来强调我想要 ...
我一直在运行基于 apache 光束的数据摄取作业,该作业解析输入 CSV 文件并将数据写入接收器。 当一次提交一个作业时(在正常负载情况下),此作业可以正常工作。 但是最近当我开始负载测试时,我开始在一个循环中按顺序安排多个作业,我观察到一些异常和作业失败。 目前,我正在使用脚本通过 Flink ...
我正在尝试使用 Apache Beam(通过 Scio)运行来自流式源的最后 3 天数据(处理时间)的连续聚合,并且 output 结果来自最早的活动Z05B8C74CBD96FBF2DEZC1A 分钟。 Earliest表示 window 的开始时间最早, active表示 window 的结 ...
我正在尝试使用有状态的 DoFn(使用@ProcessElement和@StateId ValueState元素)在 Apache Beam(通过 Scio)中聚合(每个键)流数据源。 我认为这最适合我要解决的问题。 要求是: 对于给定的键,记录在所有时间都被聚合(基本上求和) -我不关心以前计算的 ...
我想将SCollection[String]转换为Seq[String]或List[String] 。 例如,我有一个名为 ids 的变量。 当我将它保存到 Cloud Storage 时,文本文件的内容是一个 ID 表。 我想将文件的内容保留为 Seq 或 List。 val seqOdIds: ...
我正在尝试在 Dataflow 上使用 Beam 的有状态处理,但每次尝试输出数据时都会在日志中收到这些错误。 结果是有状态的ParDo + DoFn没有输出任何DoFn : 编辑这似乎是巧合。 似乎有状态的ParDo在窗口触发之前不会输出任何元素。 这样对吗? 此示例使用 Scio 的.ba ...
我尝试运行一个简单的 SCIO 代码。 尝试在SCollection使用Foo会导致错误: 错误信息中写了很多。 我似乎无法理解,尽管所有这些文本如何为我应该围绕 Coders 做的事情提供任何信息来解决这个问题。 任何人都可以阐明如何解决这个问题。 不使用implicits 的加分项。 ...
在批处理模式下运行时是否有触发窗口的早期输出? 我已经使用 Dataflow runner 尝试了许多触发器来获得早期窗口输出,但它们总是被保留到处理结束。 ...
使用 Dataflow 运行器运行时,使用 AfterPane.elementCountAtLeast 触发器不起作用,但在本地运行时可以正常工作。 在 Dataflow 上运行时,它只生成一个窗格。 目标是从 Cloud SQL 中提取数据,转换并写入 Cloud Storage。 但是,内存中 ...
在运行单元测试( PipelineSpec )时,有没有办法查看 SCollection 的内容? 在多台机器上在生产中运行某些东西时,无法在一台机器上看到整个集合,但我想知道有没有办法查看 SCollection 的内容(例如在 intellij 中以调试模式运行单元测试时) . ...
我想用 SCIO JobTest 和 Scala Test 做参数化测试。 我使用 TableDrivenPropertyChecks 允许通过 aa forAll 进行参数化测试。 import org.scalatest.prop.TableDrivenPropertyChecks.{forAl ...
我有个问题。 我通过 sbt 原型创建了一个 SCIO(Apache Beam)项目:sbt new spotify/scio.g8 此作业的目标是从 GS 读取镶木地板文件当我直接在 SCIO 中使用 Apache Beam 提供的 ParquetIO 时,这项工作(GenericRecord) ...
我正在使用 Spotify 的 Scio 库在 scala 中编写 apache 光束管道。 我想在文件系统上以递归方式搜索目录下的文件,该文件系统可以是 hdfs、alluxio 或 GCS。 像 *.jar 应该找到提供的目录和子目录下的所有文件。 Apache beam sdk provid ...
我正在尝试在Dataflow上运行我的第一个Scio管道。 有问题的代码可以在这里找到。 不过我认为这不是太重要。 我的第一个实验是使用DirecRunner读取一些本地 CSV 文件并写入另一个本地 CSV 文件。 这按预期工作。 现在,我正在尝试从GCS读取文件,将输出写入BigQuery并 ...
我有一个带有一组 PTransforms 的管道,我的方法变得很长。 我想在一个单独的包中编写我的 DoFns 和我的复合转换,然后在我的主要方法中使用它们。 使用 python 非常简单,我怎样才能用 Scio 实现呢? 我没有看到任何这样做的例子。 :( ...