我在 blob 存儲中獲得連續的 blob 文件。我必須加載 Databricks 並放入 Azure SQL DB。用於編排此管道的數據工廠

Question

我在 blob 存儲中連續接收數據。 我最初在 blob 存儲中有 5 個 blob 文件，我可以使用 Databricks 從 blob 加載到 Azure SQL DB 並使用數據工廠將其自動化，但問題是當新文件進入 blob 存儲時，databricks 將這些文件與舊文件一起加載文件並將其發送到 Azure SQL DB。 我不想要這些舊文件，每次我只想要更新的文件，這樣相同的數據就不會一次又一次地加載到 Azure SQL DB 中。

Answer 1

最簡單的方法是簡單地將剛剛讀入的文件歸檔到一個名為archiveFolder的新文件夾中。 說，你的數據塊正在從以下目錄讀取：

mnt
  sourceFolder
    file1.txt
    file2.txt
    file3.txt

您運行您的代碼，攝取文件並將它們加載到 SQL 服務器中。 然后你可以簡單地做的是歸檔這些文件（將它們從sourceFolder移動到archiveFolder 。這可以使用以下命令在數據塊中簡單地完成

dbutils.fs.mv(sourcefilePath, archiveFilePath, True)

因此，下次您的代碼運行時，您的sourceFolder中將只有新文件。

我在 blob 存儲中獲得連續的 blob 文件。我必須加載 Databricks 並放入 Azure SQL DB。用於編排此管道的數據工廠

問題描述

1 個解決方案

解決方案1
1 已采納 2019-11-29 17:00:10

我在 blob 存儲中獲得連續的 blob 文件。 我必須加載 Databricks 並放入 Azure SQL DB。 用於編排此管道的數據工廠

問題描述

1 個解決方案

解決方案1 1 已采納 2019-11-29 17:00:10

我在 blob 存儲中獲得連續的 blob 文件。我必須加載 Databricks 並放入 Azure SQL DB。用於編排此管道的數據工廠

解決方案1
1 已采納 2019-11-29 17:00:10