繁体 English 中英

将 spark 作业提交给 spark-submit 和直接提交给 hadoop 有什么区别？

[英]What is the difference between submitting spark job to spark-submit and to hadoop directly?

原文 2020-11-18 15:46:40 7 1 apache-spark/ hadoop/ yarn

我注意到在我的项目中有两种运行火花作业的方法。

第一种方法是将作业提交到 spark-submit 文件
./bin/spark-提交
--class org.apache.spark.examples.SparkPi
--主本地[8]
/path/to/examples.jar
100
第二种方法是将 java 文件打包成 jar 并通过 hadoop 运行它，同时在 MainClassName 中有 Spark 代码：
hadoop jar JarFile.jar MainClassName

` 这两种方式有什么区别？ 我需要具备哪些先决条件才能使用它们？

1 个解决方案

正如您在运行 spark 作业的第二种方式中所述，使用 Spark 类和/或语法打包 java 文件实质上是将 Spark 作业包装在 Hadoop 作业中。 这可能有其缺点（主要是您的工作直接依赖于系统/集群上的 java和scala 版本，但也有一些关于不同框架版本之间支持的成长烦恼）。 因此，在这种情况下，开发人员必须注意作业将在两个不同平台上运行的设置，即使对于对 Java 和 Map/Reduce/Driver 有更好掌握的 Hadoop 用户来说似乎更简单布局，而不是 Spark 的更多已经调整的性质和 Scala 的那种陡峭的学习曲线便利。

提交作业的第一种方式是最“标准”的（就大多数用法而言，它可以在网上看到，所以对此持保留态度），几乎完全在 Spark 内操作作业的执行（除非当然，您可以存储作业的输出或从 HDFS 获取其输入）。 通过使用这种方式，您只是在某种程度上依赖于 Spark，从而使 Hadoop（又名 YARN 资源管理）的奇怪方式远离您的工作。 而且它的执行时间可以明显加快，因为它是最直接的方法。

spark-submit 和 pyspark 有什么区别？

[英]What is the difference between spark-submit and pyspark?

使用spark-submit提交spark scala作业时出错

[英]Error while submitting a spark scala job using spark-submit

提交作业时，spark-submit 中使用的参数是否有特定顺序？

[英]Is there a specific order of parameters used in spark-submit while submitting a job?

提交火花的工作绩效

[英]Spark-submit job performance

spark-submit命令中的spark.executor.cores和executor-cores有什么区别？

[英]What is the difference between spark.executor.cores and executor-cores in the spark-submit command?

使用spark-submit和java -cp运行spark应用程序时有什么区别？

[英]What is the difference between when I run a spark application using spark-submit and java -cp?

将 JAR 个文件添加到 Spark 作业 - spark-submit

[英]Add JAR files to a Spark job - spark-submit

将 jars 添加到 Spark 作业 - spark-submit

[英]Adding jars to a Spark Job - spark-submit

如何获取Hadoop火花作业的跟踪URL或如何通过Scala代码捕获spark-submit输出

[英]how to get the Hadoop-spark job's tracking URL or catch the spark-submit output by scala code

使用spark-submit提交jar时发生ClassNotFoundException

[英]ClassNotFoundException in submitting a jar using spark-submit

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 spark-submit 和 pyspark 有什么区别？使用spark-submit提交spark scala作业时出错提交作业时，spark-submit 中使用的参数是否有特定顺序？提交火花的工作绩效 spark-submit命令中的spark.executor.cores和executor-cores有什么区别？使用spark-submit和java -cp运行spark应用程序时有什么区别？将 JAR 个文件添加到 Spark 作业 - spark-submit 将 jars 添加到 Spark 作业 - spark-submit 如何获取Hadoop火花作业的跟踪URL或如何通过Scala代码捕获spark-submit输出使用spark-submit提交jar时发生ClassNotFoundException

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM