使用 Spark 读取 Azure Synapse 表

Question

我正在寻找如何从 Scala Spark 读取 Azure Synapse 表，但没有成功。 我在https://docs.microsoft.com 中找到了其他带有 Spark 的 Azure 数据库的连接器，但在新的 Azure 数据仓库中没有找到。

有谁知道这是否可能？

Answer 1

也许我误解了你的问题，但通常你会在 Spark 中使用 jdbc 连接来使用来自远程数据库的数据

请记住，Spark 必须将 Synapse 表中的数据摄取到内存中进行处理并在那里执行转换，因此它不会将操作下推到 Synapse 中。

通常，您希望对源数据库运行 SQL 查询，并且只将 SQL 的结果带入 Spark 数据帧。

Answer 2

现在可以直接通过微不足道的努力（甚至为此在 UI 中添加了一个右键单击选项），从 Azure Synapse（新的 Analytics 工作区，而不仅仅是 DWH）中的专用SQL 池读取数据，以便Scala （不幸的是，现在只有 Scala）。

在 Synapse 工作区中（当然也有写 API）：

val df = spark.read.sqlanalytics("<DBName>.<Schema>.<TableName>")

如果在集成笔记本体验之外，需要添加导入：

 import com.microsoft.spark.sqlanalytics.utils.Constants
 import org.apache.spark.sql.SqlAnalyticsConnector._

听起来他们正在努力扩展到 SERVERLESS SQL 池以及其他 SDK（例如 Python）。