簡體 English 中英

用於結構化數據的 Azure 數據湖

[英]Azure Data Lake for Structured Data

原文 2020-02-05 16:44:17 7 2 azure/ azure-data-lake

我們一直在審查 Microsoft 的現代數據倉庫架構（鏈接在此），其中提到使用 Azure 數據工廠將結構化和非結構化數據拉入 Azure 數據湖。 我也參加了很多關於這個主題的演講，但大多數人在數據湖是否適合結構化數據的問題上存在分歧。 我想確定的是，如果我們將使用的唯一來源是本地 SQL Server 數據庫，那么將數據導入數據湖是否是一個好策略？ 而且，該策略的優點/缺點是什么？

就上下文而言，我們正在尋找用於消費的單一管理平台 - 無論是使用 Power BI 的最終用戶報告，還是 Azure 數據倉庫/本地數據倉庫的素材。 我們想要一個容器作為所有這些系統的源，它不是源 OLTP 系統（即 OLTP 數據庫 -->（Azure 數據工廠）--> 數據湖 --> 其他一切）。

我感謝有關該主題的任何指導。 謝謝你。

2 個解決方案

您沒有提到數據大小，我認為對於轉向 ADL，數據是一個非常重要的參數。 在您的情況下，數據非常結構化。 如果您擁有非結構化和海量數據，並且您想稍后使用 ADB 或 Hadoop 或任何其他技術來處理它，我認為 ADL 是一個不錯的選擇。

您還應該考慮使用 SSL 動態加密數據。您可以使用基於 POSIX 的細粒度 ACL 為存儲中的所有數據授權用戶和組，從而啟用基於角色的訪問控制。

獲取結構化數據、將其扁平化並將其加載到數據湖中的唯一真正價值是節省成本並將數據與任何專有工具/計算分離。 在您的方案中，將數據存儲在數據湖存儲中比 Azure SQL 數據庫更便宜。

然而，扁平化數據存在復雜性成本。 當您需要使用數據時，您將需要重構數據（即，將其加載回數據庫，或包裝邏輯結構）。 Parquet 等格式將對此有所幫助，但用戶在數據湖中查詢數據比連接到關系數據庫更復雜。 大多數分析師和數據消費者都知道如何查詢關系數據庫，尤其是當數據已經在 SQL Server 中時。

查看數據量和使用案例以做出該決定。 “邏輯數據湖”可以包括關系數據庫中的結構化數據、存儲帳戶中扁平化的半結構化數據以及保存到存儲帳戶的非結構化數據。