如何使用 Azure Cosmos DB Spark 僅將不存在的記錄寫入 Cosmos DB？

Question

我正在使用 Databricks，它使用 Spark 連接器將 CSV 文件中的數據寫入 Cosmos DB。 現在我的 Cosmos DB 已經包含很少的記錄，所以當我運行 Databricks Notebooks 時，它應該只寫入 DB 中不存在的記錄。 我嘗試使用 SaveMode.Ignore 但沒有幫助。

df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)

現在理想情況下， SaveMode.Ignore 應該跳過現有記錄並寫入數據庫中不存在但沒有發生的唯一記錄。

如果有人對如何實現這一目標提出建議，那將是一個很大的幫助。

謝謝。

Answer 1

使用 CSV 文件中的一些唯一字段創建具有唯一鍵的容器。 之后，您無法將重復的唯一鍵值添加到 Cosmos DB。

更多信息： https://docs.microsoft.com/en-us/azure/cosmos-db/unique-keys

如何使用 Azure Cosmos DB Spark 僅將不存在的記錄寫入 Cosmos DB？

問題描述

1 個解決方案

解決方案1
1 2020-07-10 02:49:54

如何使用 Azure Cosmos DB Spark 僅將不存在的記錄寫入 Cosmos DB？

問題描述

1 個解決方案

解決方案1 1 2020-07-10 02:49:54

解決方案1
1 2020-07-10 02:49:54