簡體   English   中英

Azure數據工廠| 從SFTP到Blob的增量數據加載

[英]Azure data factory | incremental data load from SFTP to Blob

我創建了(一次性運行)DF(V2)管道,以將文件(.lta.gz)從SFTP服務器加載到蔚藍的Blob中以獲取歷史數據。 做工精美。 每天,SFTP服務器上都會有幾個新文件(無法操作或刪除)。 所以我想創建一個增量加載管道,該管道每天檢查新文件-如果是--->復制新文件。

有人對我有什么秘訣嗎?

感謝您使用Data Factory!

要在SFTP服務器上增量加載新生成的文件,可以利用GetMetadata活動來檢索LastModifiedDate屬性: https ://docs.microsoft.com/zh-cn/azure/data-factory/control-flow-get-metadata- 活動

本質上,您編寫的管道包含以下活動:

  • getMetadata(返回給定文件夾下的文件列表)
  • ForEach(遍歷每個文件)
  • getMetadata(返回給定文件的lastModifiedTime)
  • IfCondition(將lastModifiedTime與觸發WindowStartTime進行比較)
  • 復制(將文件從源復制到目標)

使用Data Factory建立數據集成流程,玩得開心!

自從我在去年5月發布了上一個答案以來,許多人都與我聯系,要求管道樣本使用getMetadata-ForEach-getMetadata-If-Copy模式實現增量文件復制方案。 這是重要的反饋,認為增量文件復制是我們要進一步優化的常見方案。

今天,我想發布一個更新的答案-我們最近發布了一項新功能,該功能可以通過一種更輕松,更可擴展的方法來實現相同的目標:

現在,您可以在SFTP數據集上設置modifiedDatetimeStart和modifiedDatetimeEnd,以指定時間范圍過濾器,以僅提取在此期間創建/修改的文件。 這使您可以使用單個活動來實現增量文件復制: https : //docs.microsoft.com/zh-cn/azure/data-factory/connector-sftp#dataset-properties

已為ADF中的這些基於文件的連接器啟用此功能:AWS S3,Azure Blob存儲,FTP,SFTP,ADLS Gen1,ADLS Gen2和本地文件系統。 對HDFS的支持即將推出。

此外,為了使編寫增量復制管道更加容易,我們現在發布通用管道模式作為解決方案模板。 您可以選擇模板之一,填寫鏈接的服務和數據集信息,然后單擊“部署”-就是這么簡單! https://docs.microsoft.com/zh-cn/azure/data-factory/solution-templates-introduction

您應該能夠在圖庫中找到增量文件復制解決方案: https : //docs.microsoft.com/zh-cn/azure/data-factory/solution-template-copy-new-files-lastmodifieddate

再次感謝您使用ADF以及與ADF進行愉快的編碼數據集成!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM