[英]What is the way to incremental sftp from remote server to azure using azure data factory
[英]Azure data factory | incremental data load from SFTP to Blob
我創建了(一次性運行)DF(V2)管道,以將文件(.lta.gz)從SFTP服務器加載到蔚藍的Blob中以獲取歷史數據。 做工精美。 每天,SFTP服務器上都會有幾個新文件(無法操作或刪除)。 所以我想創建一個增量加載管道,該管道每天檢查新文件-如果是--->復制新文件。
有人對我有什么秘訣嗎?
感謝您使用Data Factory!
要在SFTP服務器上增量加載新生成的文件,可以利用GetMetadata活動來檢索LastModifiedDate屬性: https ://docs.microsoft.com/zh-cn/azure/data-factory/control-flow-get-metadata- 活動
本質上,您編寫的管道包含以下活動:
使用Data Factory建立數據集成流程,玩得開心!
自從我在去年5月發布了上一個答案以來,許多人都與我聯系,要求管道樣本使用getMetadata-ForEach-getMetadata-If-Copy模式實現增量文件復制方案。 這是重要的反饋,認為增量文件復制是我們要進一步優化的常見方案。
今天,我想發布一個更新的答案-我們最近發布了一項新功能,該功能可以通過一種更輕松,更可擴展的方法來實現相同的目標:
現在,您可以在SFTP數據集上設置modifiedDatetimeStart和modifiedDatetimeEnd,以指定時間范圍過濾器,以僅提取在此期間創建/修改的文件。 這使您可以使用單個活動來實現增量文件復制: https : //docs.microsoft.com/zh-cn/azure/data-factory/connector-sftp#dataset-properties
已為ADF中的這些基於文件的連接器啟用此功能:AWS S3,Azure Blob存儲,FTP,SFTP,ADLS Gen1,ADLS Gen2和本地文件系統。 對HDFS的支持即將推出。
此外,為了使編寫增量復制管道更加容易,我們現在發布通用管道模式作為解決方案模板。 您可以選擇模板之一,填寫鏈接的服務和數據集信息,然后單擊“部署”-就是這么簡單! https://docs.microsoft.com/zh-cn/azure/data-factory/solution-templates-introduction
您應該能夠在圖庫中找到增量文件復制解決方案: https : //docs.microsoft.com/zh-cn/azure/data-factory/solution-template-copy-new-files-lastmodifieddate
再次感謝您使用ADF以及與ADF進行愉快的編碼數據集成!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.