[英]Why Pipeline grouping using Java's stream API collectors taking more time?
我正在使用Stream API从列表创建Map of Map。 列表包含1000万条记录。 我已经使用以下两个'groupingBy'操作通过单个语句完成了此操作。 问题在于,这一行语句需要花费近1.5分钟的时间来执行,这成为了我的性能至关重要的应用程序中执行的瓶颈。
我已经给出了我在下面使用并行流API尝试过的代码
Map<MyKey, Map<String, List<Person>>> personMap = personList.parallelStream()
.collect(Collectors.groupingBy(
person -> new MyKey(person.Id(), person.getPricePointId()),
Collectors.groupingBy(Person::getWorkType)));
执行上面的代码需要花费超过1.5分钟的时间,几乎占我总执行时间的75%。 我找不到比这更快的其他解决方案。 所以我的问题是,这么大量的数据是否具有最大的吞吐量? 还是在这里使用下游(multiple groupingBy)不是正确的选择?如果不是,减少执行时间的正确方法是什么?
您正在做的是一个坏主意,查询一千万条记录会占用大量内存,因此,将您的查询分为限制和起始点,然后根据限制和起始点划分查询,然后在单独的线程中运行每个查询,最后加入该线程。 对于您的用例,它将更快,更高效
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.