繁体   English   中英

如何处理或架构Azure数据湖存储中的增量数据提取?

[英]How to Handle or Architecture, incremental data ingestion in Azure data lake Store?

我有两个用于与IP摄像机相关的图像的自定义代码dll。

dll-One :从IP摄像机提取图像,并将其存储到Azure数据湖存储中。

  • / adls / clinic1 / patientimages
  • / adls / clinic2 / patientimages

dll-two :使用这些图像并从中提取信息,并将数据加载到RDBMS表中。

因此,例如,在RDBMS中,假设存在实体暗患者,暗诊所和事实患者访问。

首先,可以将一次性数据导出到Azure数据湖存储中的定义位置。

喜欢:

  • / adls / dim Patient
  • / adls / dimclinic
  • / adls / fact PatientVisit

问题:如何在同一文件中推送增量数据,或者如何处理Azure数据分析中的增量负载?

这就像在Azure数据分析中实现仓库一样。

注意 :不想使用Azure SQL数据库或Azure提供的任何其他存储。 我的意思是,如果一种类型的存储具有保存所有类型的数据的功能,为什么要花其他的Azure服务。

adls是我的ADLS存储的名称。

我不确定我是否完全理解您的问题,但是您可以沿时间维度组织Azure Data Lake Store中的数据文件或分区的U-SQL表中的行,以便可以为每个增量添加新的分区/文件。 通常,我们建议这种增量应有足够的大小,但要保留扩展的能力。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM