繁体   English   中英

为什么使用Java的流API收集器进行管道分组需要更多时间?

[英]Why Pipeline grouping using Java's stream API collectors taking more time?

我正在使用Stream API从列表创建Map of Map。 列表包含1000万条记录。 我已经使用以下两个'groupingBy'操作通过单个语句完成了此操作。 问题在于,这一行语句需要花费近1.5分钟的时间来执行,这成为了我的性能至关重要的应用程序中执行的瓶颈。

我已经给出了我在下面使用并行流API尝试过的代码

Map<MyKey, Map<String, List<Person>>> personMap = personList.parallelStream()
    .collect(Collectors.groupingBy(
        person -> new MyKey(person.Id(), person.getPricePointId()),
        Collectors.groupingBy(Person::getWorkType)));

执行上面的代码需要花费超过1.5分钟的时间,几乎占我总执行时间的75%。 我找不到比这更快的其他解决方案。 所以我的问题是,这么大量的数据是否具有最大的吞吐量? 还是在这里使用下游(multiple groupingBy)不是正确的选择?如果不是,减少执行时间的正确方法是什么?

您正在做的是一个坏主意,查询一千万条记录会占用大量内存,因此,将您的查询分为限制和起始点,然后根据限制和起始点划分查询,然后在单独的线程中运行每个查询,最后加入该线程。 对于您的用例,它将更快,更高效

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM