使用 Apache Spark 读写 SQL 数据库

Question

我想了解为什么在使用 Apache Spark 时我们没有明确关闭 JDBC 连接。

这是因为当我们这样做时

val collection = sqlContext.read.sqlDB(config)

或者

jdbcDF.write
  .format("jdbc")
   (...)
  .save()

我们并没有真正打开连接，而只是指定一个 DAG 阶段？ 然后在引擎盖下 Spark 建立连接并关闭它？

Answer 1

没错，Spark 负责在计划执行阶段打开/关闭与关系数据源的 JDBC 连接。 这允许它保持支持多种DataSource类型所需的抽象级别。 您可以检查JdbcRelationProvider （用于读取）或JdbcUtils （用于保存）的源代码以查看该逻辑。