簡體   English   中英

如何處理或架構Azure數據湖存儲中的增量數據提取?

[英]How to Handle or Architecture, incremental data ingestion in Azure data lake Store?

我有兩個用於與IP攝像機相關的圖像的自定義代碼dll。

dll-One :從IP攝像機提取圖像,並將其存儲到Azure數據湖存儲中。

  • / adls / clinic1 / patientimages
  • / adls / clinic2 / patientimages

dll-two :使用這些圖像並從中提取信息,並將數據加載到RDBMS表中。

因此,例如,在RDBMS中,假設存在實體暗患者,暗診所和事實患者訪問。

首先,可以將一次性數據導出到Azure數據湖存儲中的定義位置。

喜歡:

  • / adls / dim Patient
  • / adls / dimclinic
  • / adls / fact PatientVisit

問題:如何在同一文件中推送增量數據,或者如何處理Azure數據分析中的增量負載?

這就像在Azure數據分析中實現倉庫一樣。

注意 :不想使用Azure SQL數據庫或Azure提供的任何其他存儲。 我的意思是,如果一種類型的存儲具有保存所有類型的數據的功能,為什么要花其他的Azure服務。

adls是我的ADLS存儲的名稱。

我不確定我是否完全理解您的問題,但是您可以沿時間維度組織Azure Data Lake Store中的數據文件或分區的U-SQL表中的行,以便可以為每個增量添加新的分區/文件。 通常,我們建議這種增量應有足夠的大小,但要保留擴展的能力。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM