Java 8 并行流中的自定义线程池

Question

是否可以为 Java 8 并行流指定自定义线程池？ 我在任何地方都找不到它。

想象一下，我有一个服务器应用程序，我想使用并行流。 但是该应用程序很大并且是多线程的，所以我想对它进行划分。 我不希望在另一个模块的 applicationblock 任务的一个模块中运行缓慢的任务。

如果我不能为不同的模块使用不同的线程池，这意味着我不能在现实世界的大多数情况下安全地使用并行流。

试试下面的例子。 有一些 CPU 密集型任务在单独的线程中执行。 这些任务利用并行流。 第一个任务被破坏，所以每一步需要 1 秒（由线程睡眠模拟）。 问题是其他线程卡住并等待中断的任务完成。 这是一个人为的例子，但想象一个 servlet 应用程序和某人将一个长时间运行的任务提交到共享 fork 加入池。

public class ParallelTest {
    public static void main(String[] args) throws InterruptedException {
        ExecutorService es = Executors.newCachedThreadPool();

        es.execute(() -> runTask(1000)); //incorrect task
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));


        es.shutdown();
        es.awaitTermination(60, TimeUnit.SECONDS);
    }

    private static void runTask(int delay) {
        range(1, 1_000_000).parallel().filter(ParallelTest::isPrime).peek(i -> Utils.sleep(delay)).max()
                .ifPresent(max -> System.out.println(Thread.currentThread() + " " + max));
    }

    public static boolean isPrime(long n) {
        return n > 1 && rangeClosed(2, (long) sqrt(n)).noneMatch(divisor -> n % divisor == 0);
    }
}

Answer 1

实际上有一个技巧如何在特定的 fork-join 池中执行并行操作。 如果你将它作为一个 fork-join 池中的任务来执行，它会留在那里并且不使用公共的。

final int parallelism = 4;
ForkJoinPool forkJoinPool = null;
try {
    forkJoinPool = new ForkJoinPool(parallelism);
    final List<Integer> primes = forkJoinPool.submit(() ->
        // Parallel task here, for example
        IntStream.range(1, 1_000_000).parallel()
                .filter(PrimesPrint::isPrime)
                .boxed().collect(Collectors.toList())
    ).get();
    System.out.println(primes);
} catch (InterruptedException | ExecutionException e) {
    throw new RuntimeException(e);
} finally {
    if (forkJoinPool != null) {
        forkJoinPool.shutdown();
    }
}

该技巧基于ForkJoinTask.fork ，它指定：“安排在当前任务正在运行的池中异步执行此任务，如果适用，或使用ForkJoinPool.commonPool()如果不是inForkJoinPool() ”

Answer 2

并行流使用默认的ForkJoinPool.commonPool ，默认情况下，它比有处理器少一个线程，由Runtime.getRuntime().availableProcessors() （这意味着并行流为调用线程留下一个处理器）。

对于需要单独或自定义池的应用程序，可以使用给定的目标并行级别构建 ForkJoinPool； 默认情况下，等于可用处理器的数量。

这也意味着如果您有嵌套的并行流或多个并行流同时启动，它们将共享同一个池。 优点：您永远不会使用超过默认值（可用处理器的数量）。 缺点：您可能无法将“所有处理器”分配给您启动的每个并行流（如果您碰巧有多个）。 （显然你可以使用ManagedBlocker来规避它。）

要更改并行流的执行方式，您可以

将并行流执行提交到您自己的 ForkJoinPool： yourFJP.submit(() -> stream.parallel().forEach(soSomething)).get(); 或者
您可以使用系统属性更改公共池的大小： System.setProperty("java.util.concurrent.ForkJoinPool.common.parallelism", "20")用于 20 个线程的目标并行度。 但是，在反向移植补丁https://bugs.openjdk.java.net/browse/JDK-8190974之后，这不再起作用。

后者在我有 8 个处理器的机器上的示例。 如果我运行以下程序：

long start = System.currentTimeMillis();
IntStream s = IntStream.range(0, 20);
//System.setProperty("java.util.concurrent.ForkJoinPool.common.parallelism", "20");
s.parallel().forEach(i -> {
    try { Thread.sleep(100); } catch (Exception ignore) {}
    System.out.print((System.currentTimeMillis() - start) + " ");
});

输出是：

215 216 216 216 216 216 216 216 315 316 316 316 316 316 316 316 415 416 416 416

所以你可以看到并行流一次处理 8 个项目，即它使用 8 个线程。 但是，如果我取消注释注释行，则输出为：

215 215 215 215 215 216 216 216 216 216 216 216 216 216 216 216 216 216 216 216

这一次，并行流使用了 20 个线程，并且流中的所有 20 个元素都已被并发处理。

Answer 3

除了在您自己的 forkJoinPool 中触发并行计算的技巧之外，您还可以将该池传递给 CompletableFuture.supplyAsync 方法，如下所示：

ForkJoinPool forkJoinPool = new ForkJoinPool(2);
CompletableFuture<List<Integer>> primes = CompletableFuture.supplyAsync(() ->
    //parallel task here, for example
    range(1, 1_000_000).parallel().filter(PrimesPrint::isPrime).collect(toList()), 
    forkJoinPool
);

Answer 4

原始解决方案（设置 ForkJoinPool 公共并行性属性）不再有效。 查看原始答案中的链接，打破这一点的更新已重新移植到 Java 8。如链接线程中所述，此解决方案不能保证永远有效。 基于此，解决方案是在接受的答案中讨论的带有 .get 解决方案的 forkjoinpool.submit 。 我认为 backport 也解决了这个解决方案的不可靠性。

ForkJoinPool fjpool = new ForkJoinPool(10);
System.out.println("stream.parallel");
IntStream range = IntStream.range(0, 20);
fjpool.submit(() -> range.parallel()
        .forEach((int theInt) ->
        {
            try { Thread.sleep(100); } catch (Exception ignore) {}
            System.out.println(Thread.currentThread().getName() + " -- " + theInt);
        })).get();
System.out.println("list.parallelStream");
int [] array = IntStream.range(0, 20).toArray();
List<Integer> list = new ArrayList<>();
for (int theInt: array)
{
    list.add(theInt);
}
fjpool.submit(() -> list.parallelStream()
        .forEach((theInt) ->
        {
            try { Thread.sleep(100); } catch (Exception ignore) {}
            System.out.println(Thread.currentThread().getName() + " -- " + theInt);
        })).get();

Answer 5

我们可以使用以下属性更改默认并行度：

-Djava.util.concurrent.ForkJoinPool.common.parallelism=16

可以设置为使用更多的并行性。

Answer 6

要测量实际使用的线程数，您可以检查Thread.activeCount() ：

    Runnable r = () -> IntStream
            .range(-42, +42)
            .parallel()
            .map(i -> Thread.activeCount())
            .max()
            .ifPresent(System.out::println);

    ForkJoinPool.commonPool().submit(r).join();
    new ForkJoinPool(42).submit(r).join();

这可以在 4 核 CPU 上产生如下输出：

5 // common pool
23 // custom pool

没有.parallel()它给出：

3 // common pool
4 // custom pool

Answer 7

到目前为止，我使用了这个问题的答案中描述的解决方案。 现在，我想出了一个名为Parallel Stream Support的小库：

ForkJoinPool pool = new ForkJoinPool(NR_OF_THREADS);
ParallelIntStreamSupport.range(1, 1_000_000, pool)
    .filter(PrimesPrint::isPrime)
    .collect(toList())

但正如@PabloMatiasGomez 在评论中指出的那样，并行流的拆分机制存在缺陷，这在很大程度上取决于公共池的大小。 请参阅来自 HashSet 的并行流不并行运行。

我使用此解决方案只是为了为不同类型的工作设置单独的池，但即使我不使用它，我也无法将公共池的大小设置为 1。

Answer 8

注意：似乎在 JDK 10 中实现了一个修复程序，可确保自定义线程池使用预期的线程数。

自定义 ForkJoinPool 中的并行流执行应遵守并行性https://bugs.openjdk.java.net/browse/JDK-8190974

Answer 9

如果您不想依赖实现技巧，总有一种方法可以通过实现结合map和collect语义的自定义收集器来实现相同的目标……而且您将不仅限于 ForkJoinPool：

list.stream()
  .collect(parallel(i -> process(i), executor, 4))
  .join()

幸运的是，它已经在这里完成并在 Maven Central 上可用： http : //github.com/pivovarit/parallel-collectors

免责声明：我写了它并对它负责。

Answer 10

去获取AbacusUtil 。 可以为并行流指定线程数。 这是示例代码：

LongStream.range(4, 1_000_000).parallel(threadNum)...

披露：我是AbacusUtil的开发者。

Answer 11

我尝试了自定义ForkJoinPool 如下调整池大小：

private static Set<String> ThreadNameSet = new HashSet<>();
private static Callable<Long> getSum() {
    List<Long> aList = LongStream.rangeClosed(0, 10_000_000).boxed().collect(Collectors.toList());
    return () -> aList.parallelStream()
            .peek((i) -> {
                String threadName = Thread.currentThread().getName();
                ThreadNameSet.add(threadName);
            })
            .reduce(0L, Long::sum);
}

private static void testForkJoinPool() {
    final int parallelism = 10;

    ForkJoinPool forkJoinPool = null;
    Long result = 0L;
    try {
        forkJoinPool = new ForkJoinPool(parallelism);
        result = forkJoinPool.submit(getSum()).get(); //this makes it an overall blocking call

    } catch (InterruptedException | ExecutionException e) {
        e.printStackTrace();
    } finally {
        if (forkJoinPool != null) {
            forkJoinPool.shutdown(); //always remember to shutdown the pool
        }
    }
    out.println(result);
    out.println(ThreadNameSet);
}

这是输出说池使用的线程比默认值4 多。

50000005000000
[ForkJoinPool-1-worker-8, ForkJoinPool-1-worker-9, ForkJoinPool-1-worker-6, ForkJoinPool-1-worker-11, ForkJoinPool-1-worker-10, ForkJoinPool-1-worker-1, ForkJoinPool-1-worker-15, ForkJoinPool-1-worker-13, ForkJoinPool-1-worker-4, ForkJoinPool-1-worker-2]

但实际上有一个奇怪的人，当我尝试使用ThreadPoolExecutor实现相同的结果时，如下所示：

BlockingDeque blockingDeque = new LinkedBlockingDeque(1000);
ThreadPoolExecutor fixedSizePool = new ThreadPoolExecutor(10, 20, 60, TimeUnit.SECONDS, blockingDeque, new MyThreadFactory("my-thread"));

但我失败了。

它只会在一个新线程中启动parallelStream ，然后其他一切都一样，这再次证明parallelStream会使用ForkJoinPool来启动它的子线程。

Answer 12

下面是我如何以编程方式设置上面提到的最大线程数标志，并截断了一段代码以验证该参数是否得到遵守

System.setProperty("java.util.concurrent.ForkJoinPool.common.parallelism", "2");
Set<String> threadNames = Stream.iterate(0, n -> n + 1)
  .parallel()
  .limit(100000)
  .map(i -> Thread.currentThread().getName())
  .collect(Collectors.toSet());
System.out.println(threadNames);

// Output -> [ForkJoinPool.commonPool-worker-1, Test worker, ForkJoinPool.commonPool-worker-3]

Answer 13

如果您不介意使用第三方库，通过cyclops-react，您可以在同一管道中混合顺序和并行流，并提供自定义 ForkJoinPools。 例如

 ReactiveSeq.range(1, 1_000_000)
            .foldParallel(new ForkJoinPool(10),
                          s->s.filter(i->true)
                              .peek(i->System.out.println("Thread " + Thread.currentThread().getId()))
                              .max(Comparator.naturalOrder()));

或者，如果我们希望在顺序流中继续处理

 ReactiveSeq.range(1, 1_000_000)
            .parallel(new ForkJoinPool(10),
                      s->s.filter(i->true)
                          .peek(i->System.out.println("Thread " + Thread.currentThread().getId())))
            .map(this::processSequentially)
            .forEach(System.out::println);

[披露我是独眼巨人反应的首席开发人员]

Answer 14

如果您不需要自定义 ThreadPool 而是想限制并发任务的数量，您可以使用：

List<Path> paths = List.of("/path/file1.csv", "/path/file2.csv", "/path/file3.csv").stream().map(e -> Paths.get(e)).collect(toList());
List<List<Path>> partitions = Lists.partition(paths, 4); // Guava method

partitions.forEach(group -> group.parallelStream().forEach(csvFilePath -> {
       // do your processing   
}));

（要求此问题的重复问题已被锁定，因此请在此处忍受我）

Answer 15

您可以尝试实现此 ForkJoinWorkerThreadFactory 并将其注入 Fork-Join 类。

public ForkJoinPool(int parallelism,
                        ForkJoinWorkerThreadFactory factory,
                        UncaughtExceptionHandler handler,
                        boolean asyncMode) {
        this(checkParallelism(parallelism),
             checkFactory(factory),
             handler,
             asyncMode ? FIFO_QUEUE : LIFO_QUEUE,
             "ForkJoinPool-" + nextPoolId() + "-worker-");
        checkPermission();
    }

您可以使用 Fork-Join 池的此构造函数来执行此操作。

注意事项：-- 1.如果你使用这个，考虑到基于你的新线程的实现，JVM的调度会受到影响，通常将fork-join线程调度到不同的内核（视为计算线程）。 2. fork-join 到线程的任务调度不会受到影响。 3. 还没有真正弄清楚并行流是如何从 fork-join 中挑选线程的（找不到关于它的正确文档），所以尝试使用不同的 threadNaming 工厂以确保是否正在挑选并行流中的线程来自您提供的 customThreadFactory。 4. commonThreadPool 不会使用这个 customThreadFactory。

Java 8 并行流中的自定义线程池

问题描述

15 个解决方案

解决方案1
451 已采纳 2014-03-08 13:12:23

解决方案2
219 2014-01-16 20:58:02

解决方案3
45 2015-01-03 08:05:57

解决方案4
22 2016-08-26 18:15:08

解决方案5
15 2019-02-22 06:59:02

解决方案6
11 2016-01-21 17:49:58

解决方案7
9 2016-08-09 20:06:57

解决方案8
4 2018-06-13 20:09:32

解决方案9
3 2019-02-01 13:51:24

解决方案10
1 2016-12-02 03:26:08

解决方案11
1 2018-05-29 01:11:32

解决方案12
1 2020-08-18 08:03:54

解决方案13
0 2017-03-10 12:04:19

解决方案14
0 2018-11-01 10:10:50

解决方案15
-3 2019-10-01 13:54:51

Java 8 并行流中的自定义线程池

问题描述

15 个解决方案

解决方案1 451 已采纳 2014-03-08 13:12:23

解决方案2 219 2014-01-16 20:58:02

解决方案3 45 2015-01-03 08:05:57

解决方案4 22 2016-08-26 18:15:08

解决方案5 15 2019-02-22 06:59:02

解决方案6 11 2016-01-21 17:49:58

解决方案7 9 2016-08-09 20:06:57

解决方案8 4 2018-06-13 20:09:32

解决方案9 3 2019-02-01 13:51:24

解决方案10 1 2016-12-02 03:26:08

解决方案11 1 2018-05-29 01:11:32

解决方案12 1 2020-08-18 08:03:54

解决方案13 0 2017-03-10 12:04:19

解决方案14 0 2018-11-01 10:10:50

解决方案15 -3 2019-10-01 13:54:51

解决方案1
451 已采纳 2014-03-08 13:12:23

解决方案2
219 2014-01-16 20:58:02

解决方案3
45 2015-01-03 08:05:57

解决方案4
22 2016-08-26 18:15:08

解决方案5
15 2019-02-22 06:59:02

解决方案6
11 2016-01-21 17:49:58

解决方案7
9 2016-08-09 20:06:57

解决方案8
4 2018-06-13 20:09:32

解决方案9
3 2019-02-01 13:51:24

解决方案10
1 2016-12-02 03:26:08

解决方案11
1 2018-05-29 01:11:32

解决方案12
1 2020-08-18 08:03:54

解决方案13
0 2017-03-10 12:04:19

解决方案14
0 2018-11-01 10:10:50

解决方案15
-3 2019-10-01 13:54:51