我一直在尝试在 apache 光束管道中使用 ElasticsearchIO API。 而且我无法连接到 elasticsearch。任何帮助都会很棒。 我的 JAR 版本: org.apache.beam:beam-sdks-java-core:2.37.0 org.apache.beam: ...
我一直在尝试在 apache 光束管道中使用 ElasticsearchIO API。 而且我无法连接到 elasticsearch。任何帮助都会很棒。 我的 JAR 版本: org.apache.beam:beam-sdks-java-core:2.37.0 org.apache.beam: ...
我正在尝试将数据从 Cloud Pub/Sub 传递到 Google Cloud Storage。 当我使用运行器DataflowRunner时,管道会发布到 Google Cloud Dataflow 并按预期工作。 但是,对于某些测试,我希望管道在本地运行(但仍从 Cloud Pub/Sub ...
文档提到了以下选项: direct_num_workers和direct_running_mode以及设置streaming选项。 DirectOptions 类中缺少所有这些 此外,当尝试从args设置这些时,会引发以下异常: java.lang.IllegalArgumentExceptio ...
我用 Dataflow runner 测试了我的代码,但是它返回一个错误: 请注意,我在 Direct Runner 中使用了相同的代码,并且效果很好。 有没有人遇到过这个问题? 如果是这样,你能告诉我如何解决吗? 或者我应该用另一个函数替换 GroupByKey ......? 这是代码: ...
以下代码: 仅使用 4 个可用工作程序中的一个,并且仅生成一个大 output 文件(即使有很多输入文件)。 如何强制 Beam 管道并行工作,即如何强制每个输入文件由不同的工作人员单独处理? ...
因此,当使用DataflowRunner时,我们使用filesToStage方法将文件登台到GCS,但是在DirectRunner中不会发生。 是否可以通过使用ClassLoader或其他方法将DirectRunner阶段文件添加到GCS并使用类似于DataflowRunner的文件? ...
我正在Windows中使用Apache Beam通过DirectRunner运行WordCount程序,可以看到在temp文件夹中(src / main / resources /下)创建了输出文件,但是写入输出文件失败。 下面是代码片段: 请让我知道它期望输出目录/文件的格式,谢谢 ...
我想在 eclipse 中使用直接运行器运行我的管道,并在我的 DoFn 函数和调试执行中放置一个断点。 我尝试通过以下步骤设置直接转轮: 添加直接运行maven包 在 pom.xml 中为直接运行程序设置 maven 配置文件。 我的 pom.xml 有这个配置文件 <profi ...