[英]Attach Databricks Pool to a Databricks Job cluster in Azure
有没有办法可以将 Databricks 池附加到 Databricks 作业集群? 我问这个问题的原因是,我测试了一个配置为新链接服务的 Databricks 作业集群,每当 ADF 管道触发该作业时,我都会看到一个新的作业集群为管道中的每个活动启动每次启动新的作业集群时,都需要额外的 2-3 分钟来启动集群、安装所需的库并下载 DBR 版本。
我每天要触发近 30 个 ADF 管道,每个管道在管道内平均有 3 个活动,因此总共 30X3X(2.5)= 225 分钟(3.75 小时)。 如果我们平均花费 2.5 分钟来启动集群,那么我将浪费 3.75 小时来启动作业集群。 我们能否避免集群启动时间。
在高并发集群中,这根本不是问题,只有初始(第一个)管道需要时间,随后的管道将通过使用高并发集群中现有的运行节点运行得更快。
任何指针都会有所帮助!
是的,您可以将作业集群附加到池- 您只需通过instancePoolId 属性指定该池,如下所示:
{
"name": "DBName",
"type": "Microsoft.DataFactory/factories/linkedservices",
"properties": {
"annotations": [],
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://some-url.azuredatabricks.net",
"newClusterNodeType": "Standard_DS3_v2",
"newClusterNumOfWorker": "5",
"instancePoolId":"<your-pool-id>",
"newClusterSparkEnvVars": {
"PYSPARK_PYTHON": "/databricks/python3/bin/python3"
},
"newClusterVersion": "8.2.x-scala2.12",
"newClusterInitScripts": [],
"encryptedCredential": "some-base-64"
}
}
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.