繁体   English   中英

Databricks + ADF + ADLS2 + Hive = Azure Synapse

[英]Databricks + ADF + ADLS2 + Hive = Azure Synapse

我没有使用 Azure Synapse 的经验,但我的理解是,它与 SQL DWH 中的 Databricks、ADF、ADLS2 和 Hive 相同,都在同一个工作区中,但名称不同。

我错了吗?

是的,在许多情况下,Azure Synapse 和 Databricks 提供相同的大数据分析方法,但这些服务之间也几乎没有区别。

现在,随着 Synapse 中的新功能,我们看到了一些与 Databricks(例如 Spark、Delta)相似的功能,这引发了关于 Synapse 与 Databricks 的比较以及何时使用哪个的问题。

  • 是的,两者都有 Spark,但是……

    • 数据块

      • 拥有一个专有的数据处理引擎 (Databricks Runtime),它构建在高度优化的 Apache Spark 版本上,提供 50 倍的性能
      • 已经支持 Spark 3.0
      • 允许用户选择启用 GPU 的集群并在标准和高并发集群模式之间进行选择
    • 突触

      • 开源 Apache Spark(因此不包括 Databricks Runtime 的所有功能)
      • 为 Spark 应用程序内置了 .NET 支持
  • 是的,两者都有笔记本

    • 突触

      • 互动笔记本

      • 与 Notebooks 共同创作,但一个人需要在另一个人看到更改之前保存 Notebook

      • 没有自动版本控制

    • 数据块

      • Databricks 笔记本

      • 具有实时共同创作(两位作者都可以实时查看更改) 自动版本控制

  • 是的,两者都可以从数据湖访问数据

    • 突触

      • 创建 Synapse 时,您可以选择一个数据湖作为您的主要数据湖(可以直接从脚本和笔记本中查询)
    • 数据块

      • 使用前需要挂载数据湖
  • 是的,两者都利用 Delta

    • 突触

      • Delta Lake 是开源的
    • 数据块

      • 有 Databricks Delta,它建立在开源之上,但提供了一些额外的优化
  • 不,它们不一样

    • 突触

      • 既有传统的 SQL 引擎(适合传统的 BI 开发人员),也有 Spark 引擎(适合数据科学家、分析师和工程师)

      • 是一个数据仓库(即Synapse Analytics)+一个界面工具(即Synapse Studio)

    • 数据块

      • 不是数据仓库工具,而是基于 Spark 的 notebook 工具重点关注 Spark、Delta Engine、MLflow 和 MLR
  • 不,他们不提供相同的开发人员体验

    • 突触

      • 目前仅通过 Synapse Studio(而不是通过本地 IDE)为 Spark 开发提供开发人员体验

      • 尚未将 Git 集成到 Synapse Studio Notebooks 中

    • 数据块

      • 在 Databricks UI、Databricks Connect(即从 Visual Studio Code、Pycharm 等远程连接)以及很快在 Databricks 中提供 Jupyter 和 RStudio UI 中的开发人员体验

检查何时使用 Synapse,何时使用 Databricks? .

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM