從 Java 提交 Azure 突觸中的 Spark 作業

Question

Azure Synapse 提供托管火花池，可以在其中提交火花作業。

如何使用 Java 將 spark-job（作為 jars）以及依賴項提交到 pool2
如果提交了多個作業（每個作業都有自己的一組依賴項），那么依賴項會在作業之間共享。 還是他們彼此不可知？

Answer 1

對於 (1)：

添加以下依賴項：

    <dependency>
        <groupId>com.azure</groupId>
        <artifactId>azure-analytics-synapse-spark</artifactId>
        <version>1.0.0-beta.4</version>
    </dependency>
    <dependency>
        <groupId>com.azure</groupId>
        <artifactId>azure-identity</artifactId>
    </dependency>

使用以下示例代碼：

import com.azure.analytics.synapse.spark.SparkBatchClient;
import com.azure.analytics.synapse.spark.SparkClientBuilder;
import com.azure.analytics.synapse.spark.models.SparkBatchJob;
import com.azure.analytics.synapse.spark.models.SparkBatchJobOptions;
import com.azure.identity.DefaultAzureCredentialBuilder;

import java.util.*;

public class SynapseService {
    private final SparkBatchClient batchClient;

    public SynapseService() {
        batchClient = new SparkClientBuilder()
                .endpoint("https://xxxx.dev.azuresynapse.net/")
                .sparkPoolName("TestPool")
                .credential(new DefaultAzureCredentialBuilder().build())
                .buildSparkBatchClient();
    }

    public SparkBatchJob submitSparkJob(String name, String mainFile, String mainClass, List<String> arguments, List<String> jars) {
        SparkBatchJobOptions options = new SparkBatchJobOptions()
                .setName(name)
                .setFile(mainFile)
                .setClassName(mainClass)
                .setArguments(arguments)
                .setJars(jars)
                .setExecutorCount(3)
                .setExecutorCores(4)
                .setDriverCores(4)
                .setDriverMemory("6G")
                .setExecutorMemory("6G");
        return batchClient.createSparkBatchJob(options);
    }

    /**
     * All possible Livy States: https://docs.microsoft.com/en-us/rest/api/synapse/data-plane/spark-batch/get-spark-batch-jobs#livystates
     *
     * Some of the values: busy, dead, error, idle, killed, not_Started, recovering, running, shutting_down, starting, success
     * @param id
     * @return
     */
    public SparkBatchJob getSparkJob(int id, boolean detailed) {
        return batchClient.getSparkBatchJob(id, detailed);
    }


    /**
     * Cancels the ongoing synapse spark job
     * @param jobId id of the synapse job
     */
    public void cancelSparkJob(int jobId) {
        batchClient.cancelSparkBatchJob(jobId);
    }

}

最后提交 spark-job：

SynapseService synapse = new SynapseService();
synapse.submitSparkJob("TestJob",
        "abfss://builds@xxxx.dfs.core.windows.net/core/jars/main-module_2.12-1.0.jar",
        "com.xx.Main",
        Collections.emptyList(),
        Arrays.asList("abfss://builds@xxxx.dfs.core.windows.net/core/jars/*"));

最后，您需要在以下方面提供必要的角色：

打開 Synapse 分析工作室
管理 -> 訪問控制
向調用者提供角色Synapse Compute Operator和Synapse Compute Operator

回答問題 2：

當作業通過 jars 在 synapse 中提交時，它們相當於spark-submit 。 所以所有的工作都是彼此不可知的，並且不共享彼此的依賴關系。

從 Java 提交 Azure 突觸中的 Spark 作業

問題描述

1 個解決方案

解決方案1
0 2022-02-02 14:05:33

從 Java 提交 Azure 突觸中的 Spark 作業

問題描述

1 個解決方案

解決方案1 0 2022-02-02 14:05:33

解決方案1
0 2022-02-02 14:05:33