为什么使用Java的流API收集器进行管道分组需要更多时间？

Question

我正在使用Stream API从列表创建Map of Map。 列表包含1000万条记录。 我已经使用以下两个'groupingBy'操作通过单个语句完成了此操作。 问题在于，这一行语句需要花费近1.5分钟的时间来执行，这成为了我的性能至关重要的应用程序中执行的瓶颈。

我已经给出了我在下面使用并行流API尝试过的代码

Map<MyKey, Map<String, List<Person>>> personMap = personList.parallelStream()
    .collect(Collectors.groupingBy(
        person -> new MyKey(person.Id(), person.getPricePointId()),
        Collectors.groupingBy(Person::getWorkType)));

执行上面的代码需要花费超过1.5分钟的时间，几乎占我总执行时间的75％。 我找不到比这更快的其他解决方案。 所以我的问题是，这么大量的数据是否具有最大的吞吐量？ 还是在这里使用下游（multiple groupingBy）不是正确的选择？如果不是，减少执行时间的正确方法是什么？

Answer 1

您正在做的是一个坏主意，查询一千万条记录会占用大量内存，因此，将您的查询分为限制和起始点，然后根据限制和起始点划分查询，然后在单独的线程中运行每个查询，最后加入该线程。 对于您的用例，它将更快，更高效

为什么使用Java的流API收集器进行管道分组需要更多时间？

问题描述

1 个解决方案

解决方案1
0 2019-06-13 08:57:29

为什么使用Java的流API收集器进行管道分组需要更多时间？

问题描述

1 个解决方案

解决方案1 0 2019-06-13 08:57:29

解决方案1
0 2019-06-13 08:57:29