[英]Incremental loading of files from On-prem file server to Azure Data Lake
我们希望使用Azure Data Factory v2将文件从本地文件服务器增量加载到Azure Data Lake。
文件应该每天存储在本地文件服务器中,并且我们将不得不在一天中定期运行ADFv2管道,并且应该只捕获文件夹中新的未处理文件。
我们的建议是将每日摄取的文件集放入/ YYYY / MM / DD目录。 您可以参考此示例,了解如何使用系统变量(@trigger()。scheduledTime)从相应目录读取文件:
https://docs.microsoft.com/zh-cn/azure/data-factory/how-to-read-write-partitioned-data
在源数据集中,您可以进行文件过滤,例如可以按时间(以表达语言调用datetime函数)或其他将定义新文件的方式进行过滤。 https://docs.microsoft.com/zh-cn/azure/data-factory/control-flow-expression-language-functions然后使用计划的触发器,您可以在一天中执行n次管道。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.