[英]Update data in Azure Data Lake
我是 Azure Data Lake 和大數據的新手,如果我的問題看起來很愚蠢,我深表歉意。
我一直在研究 ADL 和 ADLA 來開發冷路徑數據存儲。 我有一個 Azure 流分析查詢,它輸出到 Power Bi 以進行實時可視化,另一個查詢將數據以 .CSV 格式存儲在數據湖中。
我創建了一個 VS 項目,在其中創建了與 csv 文件相對應的數據庫、模式和表,一個腳本從 CSV 文件中提取數據並將其復制到表中以給我的數據一些結構。
我的問題是,如果數據繼續存儲在文件夾結構定義數據到達時間的 csv 文件中,我如何使用新數據更新我的表。 我是否放下桌子並重新開始,我認為這不是一個可行的解決方案?
我有一些腳本,我必須運行這些腳本才能創建數據庫、模式、提取數據並填充表。 當然,每當新數據到達時,我都無法運行所有腳本。
注意:我想指出數據庫和表都在 ADLA U-SQL 數據庫中。
這是一個非常主觀的問題。 在繼續之前,我建議您閱讀大量有關“大數據”和“數據湖”的內容。 在那堂課的中間,你可能會找到答案。 例如,請參閱數據湖的樹狀組織。 我的起始參考是:
http://blogs.adatis.co.uk/ustoldfield/post/Shaping-The-Lake-Data-Lake-Framework
https://www.sqlchick.com/entries/2016/7/31/data-lake-use-cases-and-planning
https://www.sqlchick.com/entries/2017/12/30/zones-in-a-data-lake
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.