繁体   English   中英

MongoIO Apache 带有 Mongo Upsert 管道示例的光束 GCP 数据流

[英]MongoIO Apache beam GCP Dataflow with Mongo Upsert Pipeline example

我正在寻找一个示例来实现 Apache beam GCP 数据流管道,以使用更新插入操作更新 Mongo DB 中的数据,即如果值存在,它应该更新该值,如果不存在,它应该插入。

语法如下:

pipeline.apply(...)
.apply(MongoDbIO.write()
.withUri("mongodb://localhost:27017")
.withDatabase("my-database")
.withCollection("my-collection")
.withUpdateConfiguration(UpdateConfiguration.create().withUpdateKey("key1")
      .withUpdateFields(UpdateField.fieldUpdate("$set", "source-field1", "dest-field1"),
                        UpdateField.fieldUpdate("$set","source-field2", "dest-field2"),
                       //pushes entire input doc to the dest field
                         UpdateField.fullUpdate("$push", "dest-field3") ))); 

下面是我的管道代码,我目前正在其中插入文档,如下所示

{"_id":{"$oid":"619632693261e80017c44145"},"vin":"SATESTCAVA74621","timestamp":"2021-11-18T10:48:59.889Z","key":"EV_CHARGE_NOW_SETTING","value":"DEFAULT"}

现在,如果存在“ vin ”和“ key ”的组合,我想更新“ value ”和“ timestamp ”,如果不存在“ vin ”和“ key ”组合,则使用 upsert 插入新文档。

PCollection<PubsubMessage> pubsubMessagePCollection= pubsubMessagePCollectionMap.get(topic);
            pubsubMessagePCollection.apply("Convert pubsub to kv,k=vin", ParDo.of(new ConvertPubsubToKVFn()))
                .apply("group by vin key",GroupByKey.<String,String>create())
                .apply("filter data for alerts, status and vehicle data", ParDo.of(new filterMessages()))
                .apply("converting message to document type", ParDo.of(
                    new ConvertMessageToDocumentTypeFn(list_of_keys_str, collection, options.getMongoDBHostName(),options.getMongoDBDatabaseName())).withSideInputs(list_of_keys_str))
                .apply(MongoDbIO.write()
                    .withUri(options.getMongoDBHostName())
                    .withDatabase(options.getMongoDBDatabaseName())
                    .withCollection(collection));

现在,如果我想使用下面的代码行:

.withUpdateConfiguration(UpdateConfiguration.create().withUpdateKey("key1")
      .withUpdateFields(UpdateField.fieldUpdate("$set", "source-field1", "dest-field1"),
                        UpdateField.fieldUpdate("$set","source-field2", "dest-field2"),
                       //pushes entire input doc to the dest field
                         UpdateField.fullUpdate("$push", "dest-field3") )));

我的key1“source-field1”、“dest-field1”“source-field2”、“dest-field2”“dest-field3”是什么?

我对这个价值观感到困惑。 请帮忙 !

下面的代码我正在尝试更新

MongoDbIO.write()
.withUri(options.getMongoDBHostName())
.withDatabase(options.getMongoDBDatabaseName())
.withCollection(collection)
.withUpdateConfiguration(UpdateConfiguration.create()
                            .withIsUpsert(true)
                            .withUpdateKey("vin")
                            .withUpdateKey("key")
                            .withUpdateFields(UpdateField.fieldUpdate("$set", "vin", "vin"),
                                              UpdateField.fieldUpdate("$set", "key", "key"),
                                              UpdateField.fieldUpdate("$set", "timestamp", "timestamp"),
                                              UpdateField.fieldUpdate("$set", "value", "value")))

使用上面的代码我的文档不是更新而是添加 id = vin,它应该根据 vin 和密钥匹配的现有记录更新,如果插入它应该插入自动生成的 _id 值。

请建议在这里做什么?

upsert 配置从这里读取,您可以使用withIsUpsert (true) 配置它。

在您的原始语法中,添加额外的行以启用更新插入。

pipeline.apply(...)
  .apply(MongoDbIO.write()
    .withUri("mongodb://localhost:27017")
    .withDatabase("my-database")
    .withCollection("my-collection")
    .withUpdateConfiguration(
      UpdateConfiguration.create()
        .withIsUpsert(true)
        .withUpdateKey("key1")
        .withUpdateFields(
          UpdateField.fieldUpdate("$set", "source-field1", "dest-field1"),
          UpdateField.fieldUpdate("$set","source-field2", "dest-field2"),
          //pushes entire input doc to the dest field
          UpdateField.fullUpdate("$push", "dest-field3")))); 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM