azure - Databricks、Synapse 和 ADLS gen2 的数据治理解决方案

客观的

我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。 我们正在使用 ADLS gen2、Databricks 和 Synapse 进行 ETL 处理、数据科学、ML 和 QA 活动。

我们已经有大约 100 个输入表和 25 TB/年。 未来我们期待更多。

企业对与云无关的解决方案有强烈的需求。 他们仍然可以使用 Databricks，因为它在 AWS 和 Azure 上可用。

我的解决方法

我还没有使用过任何数据治理解决方案。 我喜欢AWS Data Lake解决方案，因为它提供了开箱即用的基本功能。 据我所知， Azure 数据目录已过时，因为它不支持 ADLS gen2 。

经过非常快速的谷歌搜索后，我找到了三个选项：

目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。 此外，它将有更大的开发（基础设施定义）工作。 那么我有什么理由应该研究 Ranger/Atlas 方向吗？

更喜欢 Privacera 而不是 Immuta 的原因是什么，反之亦然？

还有其他我应该评估的选项吗？

要做的事

数据沿袭和单一事实来源。 即使从一开始的 4 个月，了解数据集之间的依赖关系也成为一个痛点。 沿袭信息存储在 Confluence 内部，难以在多处维护和持续更新。 即使现在它在某些地方已经过时了。

安全。 业务用户将来可能会在 Databricks Notebooks 中进行一些数据探索。 我们需要 Databricks 的 RLS。

数据生命周期管理。

也许其他数据治理相关的东西，比如数据质量等。

将数据从 ADLS Gen2 加载到 Azure Synapse 时出错

[英]Error while loading data from ADLS Gen2 to Azure Synapse

在 Databricks 上使用 Pyspark 访问 Azure ADLS gen2

[英]Accessing Azure ADLS gen2 with Pyspark on Databricks

启用防火墙时将 ADLS Gen2 挂载到 Databricks

[英]Mount ADLS Gen2 to Databricks when firewall is enabled

无法使用 sas 令牌在数据块中挂载 adls gen2

[英]Cannot mount adls gen2 in databricks using sas token

无法在 Databricks 中为 ADLS Gen2 创建挂载点

[英]Unable to create mount point for ADLS Gen2 in Databricks

如何从 pyspark 数据块在 ADLS gen2 中创建目录

[英]How to create directory in ADLS gen2 from pyspark databricks

备份 ADLS gen2

[英]Backup ADLS gen2

将数据从 ADLS Gen 2 加载到 Azure Synapse

[英]Loading data from ADLS Gen 2 into Azure Synapse

如何在 ADF 或 Databricks 中将 ADLS gen2 文件夹/文件名动态传递给 Databricks Notebook

[英]How to dynamically pass ADLS gen2 folder/filename to Databricks Notebook in ADF or Databricks

如何将 Azure 数据工厂连接到 ADLS Gen2 存储？

[英]How to Connect Azure Data Factory to ADLS Gen2 store?

Databricks、Synapse 和 ADLS gen2 的数据治理解决方案

问题描述

客观的

题

我的解决方法

已经完成的事情

要做的事

3 个解决方案

解决方案1
3 2020-07-12 15:20:42

解决方案2
2 2020-05-12 22:16:53

解决方案3
0 2020-12-04 17:52:34