![](/img/trans.png)
[英]Data load from blob storage to sql data warehouse using azure databricks scala
[英]I'm getting continuous blob files in blob storage. I have to load in Databricks and put in Azure SQL DB. Data factory for orchestrating this pipeline
我在 blob 存儲中連續接收數據。 我最初在 blob 存儲中有 5 個 blob 文件,我可以使用 Databricks 從 blob 加載到 Azure SQL DB 並使用數據工廠將其自動化,但問題是當新文件進入 blob 存儲時,databricks 將這些文件與舊文件一起加載文件並將其發送到 Azure SQL DB。 我不想要這些舊文件,每次我只想要更新的文件,這樣相同的數據就不會一次又一次地加載到 Azure SQL DB 中。
最簡單的方法是簡單地將剛剛讀入的文件歸檔到一個名為archiveFolder
的新文件夾中。 說,你的數據塊正在從以下目錄讀取:
mnt
sourceFolder
file1.txt
file2.txt
file3.txt
您運行您的代碼,攝取文件並將它們加載到 SQL 服務器中。 然后你可以簡單地做的是歸檔這些文件(將它們從sourceFolder
移動到archiveFolder
。這可以使用以下命令在數據塊中簡單地完成
dbutils.fs.mv(sourcefilePath, archiveFilePath, True)
因此,下次您的代碼運行時,您的sourceFolder
中將只有新文件。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.