簡體   English   中英

我在 blob 存儲中獲得連續的 blob 文件。 我必須加載 Databricks 並放入 Azure SQL DB。 用於編排此管道的數據工廠

[英]I'm getting continuous blob files in blob storage. I have to load in Databricks and put in Azure SQL DB. Data factory for orchestrating this pipeline

我在 blob 存儲中連續接收數據。 我最初在 blob 存儲中有 5 個 blob 文件,我可以使用 Databricks 從 blob 加載到 Azure SQL DB 並使用數據工廠將其自動化,但問題是當新文件進入 blob 存儲時,databricks 將這些文件與舊文件一起加載文件並將其發送到 Azure SQL DB。 我不想要這些舊文件,每次我只想要更新的文件,這樣相同的數據就不會一次又一次地加載到 Azure SQL DB 中。

最簡單的方法是簡單地將剛剛讀入的文件歸檔到一個名為archiveFolder的新文件夾中。 說,你的數據塊正在從以下目錄讀取:

mnt
  sourceFolder
    file1.txt
    file2.txt
    file3.txt

您運行您的代碼,攝取文件並將它們加載到 SQL 服務器中。 然后你可以簡單地做的是歸檔這些文件(將它們從sourceFolder移動到archiveFolder 。這可以使用以下命令在數據塊中簡單地完成

dbutils.fs.mv(sourcefilePath, archiveFilePath, True)

因此,下次您的代碼運行時,您的sourceFolder中將只有新文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM