如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB？

Question

我正在使用 Databricks，它使用 Spark 连接器将 CSV 文件中的数据写入 Cosmos DB。 现在我的 Cosmos DB 已经包含很少的记录，所以当我运行 Databricks Notebooks 时，它应该只写入 DB 中不存在的记录。 我尝试使用 SaveMode.Ignore 但没有帮助。

df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)

现在理想情况下， SaveMode.Ignore 应该跳过现有记录并写入数据库中不存在但没有发生的唯一记录。

如果有人对如何实现这一目标提出建议，那将是一个很大的帮助。

谢谢。

Answer 1

使用 CSV 文件中的一些唯一字段创建具有唯一键的容器。 之后，您无法将重复的唯一键值添加到 Cosmos DB。

更多信息： https://docs.microsoft.com/en-us/azure/cosmos-db/unique-keys

如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB？

问题描述

1 个解决方案

解决方案1
1 2020-07-10 02:49:54

如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB？

问题描述

1 个解决方案

解决方案1 1 2020-07-10 02:49:54

解决方案1
1 2020-07-10 02:49:54