Apache Spark并发程序示例

Question

我希望以下简单的hello world程序在Apache Spark中并行执行100次。

  public class SimpleHelloWorld {
    public static void main(String[] args) {
        System.out.println("Hello World");
    }
  }

因此，在并行执行后，它应该打印“ Hello World” 100次。

如何在独立的Apache Spark中做到这一点？

Answer 1

取决于您真正想要的是：

Spark-Driver中的多线程：例如

import scala.collection.parallel._
    import scala.concurrent.forkjoin._
    val pool = (0 to 100).par
    // ThreadPool with 100 concurrent Threads
    pool.tasksupport = new ForkJoinTaskSupport(new ForkJoinPool(100))
    pool.foreach(i => {
        println("Hello World")
    })

每个Spark-Executor任务的“多线程”：例如

// create 100 partitions
    var df = sc.parallelize(1 to 100, 100).toDF()
    // print "hello world" per each partition
    df.foreachPartition(_ => println("Hello World"))

Answer 2

这将在Spark 2.x中的Scala中实现您想要的功能：

sparkSession.range(100)
.foreach(_ => println("Hello World"))

但是您不会在驱动程序上看到打印的行，因为它们是在工作程序节点上执行的。

Answer 3

您好，如果您想在这种情况下运行火花机。

对于Spark作业，您需要首先启动RDD。 然后使用Spark动作或转换函数进行数据计算。 另外，自动触发它并行运行。

   public class hello world {

        public static void main(String[] args) throws Exception {

                try (JavaSparkContext sc = setupSparkContext()) {

            JavaRDD<String> helloworldRDD = sc.textFile("//your hellworld file");
                helloworldRDD.map(x->{
                    for (int i=0;i<100;i++){

                        System.out.println(x);

                    }
                    return x;

                }).collect();
        }
        }

        private static JavaSparkContext setupSparkContext() {

            SparkConf sc = new SparkConf();

            return App.getSparkContext("helloworld", sc);
        }
    }

Apache Spark并发程序示例

问题描述

3 个解决方案

解决方案1
2 2017-08-09 15:28:19

解决方案2
0 2017-08-09 06:16:04

解决方案3
0 2017-08-09 07:26:32

Apache Spark并发程序示例

问题描述

3 个解决方案

解决方案1 2 2017-08-09 15:28:19

解决方案2 0 2017-08-09 06:16:04

解决方案3 0 2017-08-09 07:26:32

解决方案1
2 2017-08-09 15:28:19

解决方案2
0 2017-08-09 06:16:04

解决方案3
0 2017-08-09 07:26:32