[英]Why does it take more time when you run a LINQ OrderBy before Select?
在为编码问题编写解决方案时,我发现了LINQ语句的一个有趣的行为。 我有两个场景:
第一:
arr.Select(x => x + 5).OrderBy(x => x)
第二:
arr.OrderBy(x => x).Select(x => x + 5)
在使用System.Diagnostics.Stopwatch进行一些测试后,我得到了一个长度为100_000的整数数组的以下结果。
对于第一种方法:
00:00:00.0000152
对于第二个:
00:00:00.0073650
现在我很感兴趣为什么我先订购时需要更多时间。 我无法在谷歌上找到一些东西,所以我自己想到了。
我结束了2个想法:
1.第二种情况必须转换为IOrderedEnumerable然后返回IEnumerable,而第一种情况只需要转换为IOrderedEnumerable而不是返回。
你最终有2个循环。 第一个用于排序,第二个用于选择,而方法1在1个循环中完成所有操作。
所以我的问题是为什么在选择之前进行排序需要更多的时间?
我们来看看序列:
private static void UnderTestOrderBySelect(int[] arr) {
var query = arr.OrderBy(x => x).Select(x => x + 5);
foreach (var item in query)
;
}
private static void UnderTestSelectOrderBy(int[] arr) {
var query = arr.Select(x => x + 5).OrderBy(x => x);
foreach (var item in query)
;
}
// See Marc Gravell's comment; let's compare Linq and inplace Array.Sort
private static void UnderTestInPlaceSort(int[] arr) {
var tmp = arr;
var x = new int[tmp.Length];
for (int i = 0; i < tmp.Length; i++)
x[i] = tmp[i] + 5;
Array.Sort(x);
}
为了执行基准测试,让我们运行10
次,平均6
次中间结果:
private static string Benchmark(Action<int[]> methodUnderTest) {
List<long> results = new List<long>();
int n = 10;
for (int i = 0; i < n; ++i) {
Random random = new Random(1);
int[] arr = Enumerable
.Range(0, 10000000)
.Select(x => random.Next(1000000000))
.ToArray();
Stopwatch sw = new Stopwatch();
sw.Start();
methodUnderTest(arr);
sw.Stop();
results.Add(sw.ElapsedMilliseconds);
}
var valid = results
.OrderBy(x => x)
.Skip(2) // get rid of top 2 runs
.Take(results.Count - 4) // get rid of bottom 2 runs
.ToArray();
return $"{string.Join(", ", valid)} average : {(long) (valid.Average() + 0.5)}";
}
是时候跑步了,看看结果:
string report = string.Join(Environment.NewLine,
$"OrderBy + Select: {Benchmark(UnderTestOrderBySelect)}",
$"Select + OrderBy: {Benchmark(UnderSelectOrderBy)}",
$"Inplace Sort: {Benchmark(UnderTestInPlaceSort)}");
Console.WriteLine(report);
结果: (Core i7 3.8GHz,.Net 4.8 IA64)
OrderBy + Select: 4869, 4870, 4872, 4874, 4878, 4895 average : 4876
Select + OrderBy: 4763, 4763, 4793, 4802, 4827, 4849 average : 4800
Inplace Sort: 888, 889, 890, 893, 896, 904 average : 893
我没有看到任何显着的差异 , Select + OrderBy
似乎比OrderBy + Select
略高一些(增益约2%)。 然而,Inplace Sort的性能远远超过任何Linq的性能( 5
倍 )。
根据您拥有的Linq提供程序,可能会对查询进行一些优化。 例如,如果您使用某种类型的数据库,您的提供程序可能会为这两个语句创建完全相同的查询:
select myColumn from myTable order by myColumn;
因此,无论您是先在Linq订购还是首先选择,性能都应该相同。
由于这似乎没有发生,你可能使用Linq2Objects,它根本没有优化。 因此,您的语句的顺序可能会有效,特别是如果您使用某种过滤器使用Where
将过滤掉许多对象,以便后面的语句不会对整个集合进行操作。
长话短说:差异很可能来自一些内部初始化逻辑。 由于100000数字的数据集并不是很大 - 至少不够大 - 即使是一些快速初始化也会产生很大的影响。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.