繁体   English   中英

为什么在Select之前运行LINQ OrderBy需要更多时间?

[英]Why does it take more time when you run a LINQ OrderBy before Select?

在为编码问题编写解决方案时,我发现了LINQ语句的一个有趣的行为。 我有两个场景:

第一:

arr.Select(x => x + 5).OrderBy(x => x)

第二:

arr.OrderBy(x => x).Select(x => x + 5)

在使用System.Diagnostics.Stopwatch进行一些测试后,我得到了一个长度为100_000的整数数组的以下结果。

对于第一种方法:

00:00:00.0000152

对于第二个:

00:00:00.0073650

现在我很感兴趣为什么我先订购时需要更多时间。 我无法在谷歌上找到一些东西,所以我自己想到了。

我结束了2个想法:
1.第二种情况必须转换为IOrderedEnumerable然后返回IEnumerable,而第一种情况只需要转换为IOrderedEnumerable而不是返回。
你最终有2个循环。 第一个用于排序,第二个用于选择,而方法1在1个循环中完成所有操作。

所以我的问题是为什么在选择之前进行排序需要更多的时间?

我们来看看序列:

private static void UnderTestOrderBySelect(int[] arr) {
  var query = arr.OrderBy(x => x).Select(x => x + 5); 

  foreach (var item in query)
    ;
}

private static void UnderTestSelectOrderBy(int[] arr) {
  var query = arr.Select(x => x + 5).OrderBy(x => x);  

  foreach (var item in query)
    ;
}

// See Marc Gravell's comment; let's compare Linq and inplace Array.Sort
private static void UnderTestInPlaceSort(int[] arr) {
  var tmp = arr;
  var x = new int[tmp.Length];

  for (int i = 0; i < tmp.Length; i++)
    x[i] = tmp[i] + 5;

  Array.Sort(x);
}

为了执行基准测试,让我们运行10次,平均6次中间结果:

private static string Benchmark(Action<int[]> methodUnderTest) {
  List<long> results = new List<long>();

  int n = 10;

  for (int i = 0; i < n; ++i) {
    Random random = new Random(1);

    int[] arr = Enumerable
      .Range(0, 10000000)
      .Select(x => random.Next(1000000000))
      .ToArray();

    Stopwatch sw = new Stopwatch();

    sw.Start();

    methodUnderTest(arr);

    sw.Stop();

    results.Add(sw.ElapsedMilliseconds);
  }

  var valid = results
    .OrderBy(x => x)
    .Skip(2)                  // get rid of top 2 runs
    .Take(results.Count - 4)  // get rid of bottom 2 runs
    .ToArray();

  return $"{string.Join(", ", valid)} average : {(long) (valid.Average() + 0.5)}";
}

是时候跑步了,看看结果:

  string report = string.Join(Environment.NewLine,
    $"OrderBy + Select: {Benchmark(UnderTestOrderBySelect)}",
    $"Select + OrderBy: {Benchmark(UnderSelectOrderBy)}",
    $"Inplace Sort:     {Benchmark(UnderTestInPlaceSort)}");

  Console.WriteLine(report);

结果: (Core i7 3.8GHz,.Net 4.8 IA64)

OrderBy + Select: 4869, 4870, 4872, 4874, 4878, 4895 average : 4876
Select + OrderBy: 4763, 4763, 4793, 4802, 4827, 4849 average : 4800
Inplace Sort:     888, 889, 890, 893, 896, 904 average : 893

我没有看到任何显着的差异Select + OrderBy似乎比OrderBy + Select略高一些(增益约2%)。 然而,Inplace Sort的性能远远超过任何Linq的性能( 5 )。

根据您拥有的Linq提供程序,可能会对查询进行一些优化。 例如,如果您使用某种类型的数据库,您的提供程序可能会为这两个语句创建完全相同的查询:

select myColumn from myTable order by myColumn;

因此,无论您是先在Linq订购还是首先选择,性能都应该相同。

由于这似乎没有发生,你可能使用Linq2Objects,它根本没有优化。 因此,您的语句的顺序可能会有效,特别是如果您使用某种过滤器使用Where将过滤掉许多对象,以便后面的语句不会对整个集合进行操作。

长话短说:差异很可能来自一些内部初始化逻辑。 由于100000数字的数据集并不是很大 - 至少不够大 - 即使是一些快速初始化也会产生很大的影响。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM