如何按散列值之一對散列引用數組進行排序？

Question

首先，請原諒我生銹的 Perl。 我正在嘗試修改 Bugzilla 的“whine.pl”以生成按嚴重性排序的錯誤列表。

所以它給了我一個哈希引用數組。 每個哈希都包含有關特定錯誤（ID、受讓人、嚴重性等）的一堆信息。 我想按嚴重性對數組進行排序。 做到這一點的最佳方法是什么？

我想出了幾種可能性。 一種是創建五個數組（每個嚴重性級別一個），然后遍歷數組並將散列引用推送到適當的嚴重性級別數組中。 在此之后，我可以重新組裝它們並用排序后的數組替換原始數組。

我的朋友想出的另一種方法是將嚴重性級別（存儲為散列中的文本）分配給一些數字，然后對它們進行壓縮。 也許是這樣的？

sub getVal {
    my $entry = $_[0];
    %lookup = ( "critical" => 0, ... );
    return $lookup(entry("bug_severity"));
}
@sorted = sort { getVal($a) <=> getVal($b) } @unsorted;

Answer 1

為了避免多次調用 getVal，您可以使用“裝飾、排序、取消裝飾”。 Decorate 正在獲取您真正關心的信息：

my @decorated = map { [ $_, getVal($_) ] } @unsorted;

然后對裝飾列表進行排序：

my @sortedDecorate = sort { $a->[1] <=> $b->[1] } @decorated;

然后取回原始信息（未修飾）：

my @sorted = map { $_->[0] } @sortedDecorate;

或者更像 Perl 的方式來做到這一點：

@sorted = map { $_->[0] }
          sort { $a->[1] <=> $b->[1] }
          map { [ $_, getVal($_) ] } @unsorted;

Answer 2

您可以使用施瓦茲變換：

my @sorted = map  { $_->[1] }
             sort { $a->[0] <=> $b->[0] }
             map  { [ $lookup{$_->{bug_severity}, $_ ] } 
             @unsorted;

解釋：

map  { [ $lookup{$_->{bug_severity}, $_ ] } @unsorted;

將每個錯誤映射到一個數組引用，其第一個元素是查找表中的數字錯誤嚴重性。 使用 Schwartzian 變換，您只需為@unsorted每個錯誤查找一次值。

然后，

sort { $a->[0] <=> $b->[0] }

按第一個元素對該數組進行排序。 最后，

@sorted = map  { $_->[1] }

從sort返回的數組中提取原始錯誤。

當它所做的只是哈希查找時，真的不需要getval 。

為了自動生成高效的排序器，CPAN 模塊Sort::Maker非常出色：

use strict; use warnings;

use Sort::Maker;

my @bugs = (
    { name => 'bar', bug_severity => 'severe' },
    { name => 'baz', bug_severity => 'noncritical' },
    { name => 'foo', bug_severity => 'critical' },
);

my $sorter = make_sorter('ST',
    name      => 'severity_sorter',
    init_code => 'my %lookup = (
                     critical => 0,
                     severe => 1,
                     noncritical => -1 );',
    number    => [ code => '$lookup{$_->{bug_severity}}' ],
);

use Data::Dumper;
print Dumper $_ for severity_sorter( @bugs );

輸出：

$VAR1 = {
          'name' => 'baz',
          'bug_severity' => 'noncritical'
        };
$VAR1 = {
          'name' => 'foo',
          'bug_severity' => 'critical'
        };
$VAR1 = {
          'name' => 'bar',
          'bug_severity' => 'severe'
        };

請注意，使用 naive 方法時需要進行的查找次數取決於@unsorted的元素@unsorted 。 我們可以使用簡單的程序計算它們：

#!/usr/bin/perl

use strict;
use warnings;

my ($n_elements) = @ARGV;

my @keys = qw(a b c);
my %lookup = map { $keys[$_-1] => $_ } 1 .. @keys;

my @unsorted = map { $keys[rand 3] } 1 .. $n_elements;

my $n_lookups;

my @sorted = sort {
    $n_lookups += 2;
    $lookup{$a} <=> $lookup{$b}
} @unsorted;

print "It took $n_lookups lookups to sort $n_elements elements\n";

輸出：

C:\Temp> tzt 10
It took 38 lookups to sort 10 elements

C:\Temp> tzt 100
It took 978 lookups to sort 100 elements

C:\Temp> tzt 1000
It took 10916 lookups to sort 1000 elements

C:\Temp> tzt 10000
It took 113000 lookups to sort 10000 elements

因此，需要更多信息來決定朴素排序還是使用 Schwartzian 變換是合適的解決方案。

這是一個簡單的基准測試，它似乎與@Ether 的論點一致：

#!/usr/bin/perl

use strict;
use warnings;

use Benchmark qw( cmpthese );

my ($n_elements) = @ARGV;

my @keys = qw(foo bar baz);
my %lookup = map { $keys[$_] => $_ } 0 .. $#keys;

my @unsorted = map { {v => $keys[rand 3]} } 1 .. $n_elements;

cmpthese(-1, {
    naive => sub {
        my @sorted = sort {
            $lookup{$a->{v}} <=> $lookup{$b->{v}}
        } @unsorted;
    },
    schwartzian => sub {
        my @sorted = map  { $_->[1] }
                     sort { $a->[0] <=> $b->[0] }
                     map  { [$lookup{$_->{v}}, $_] }
                     @unsorted;
    }
});

輸出：

C:\Temp> tzt 10
               Rate schwartzian       naive
schwartzian 18842/s          --        -29%
naive       26357/s         40%          --

C:\Temp> tzt 100
              Rate       naive schwartzian
naive       1365/s          --        -11%
schwartzian 1532/s         12%          --

C:\Temp> tzt 1000
             Rate       naive schwartzian
naive       121/s          --        -11%
schwartzian 135/s         12%          --

Answer 3

我喜歡你提出的解決方案：

my %sevs = (critical => 0, high => 1, ...);
my @sorted = sort { $sevs{$a->{bug_severity}} <=> $sevs{$b->{bug_severity}} } @unsorted

Answer 4

您可以使用查找表來確定 bugzilla 嚴重性的順序，如下所示（使用示例數據進行說明）：

use strict; use warnings;
use Data::Dumper;

my @bugInfo = (
                { id => 1,
                  assignee => 'Bob',
                  severity => 'HIGH'
                },
                { id => 2,
                  assignee => 'Anna',
                  severity => 'LOW'
                },
                { id => 3,
                  assignee => 'Carl',
                  severity => 'EXTREME'
                },
              );
my %severity_ordering = (
    EXTREME => 0,
    HIGH => 1,
    MEDIUM => 2,
    LOW => 3,
);
sub byseverity
{
    $severity_ordering{$a->{severity}} <=> $severity_ordering{$b->{severity}}
}

my @sortedBugs = sort byseverity @bugInfo;
print Dumper(\@sortedBugs);

產量：

$VAR1 = [
          {
            'assignee' => 'Carl',
            'id' => 3,
            'severity' => 'EXTREME'
          },
          {
            'assignee' => 'Bob',
            'id' => 1,
            'severity' => 'HIGH'
          },
          {
            'assignee' => 'Anna',
            'id' => 2,
            'severity' => 'LOW'
          }
        ];

如何按散列值之一對散列引用數組進行排序？

問題描述

4 個解決方案

解決方案1
7 2009-10-28 22:13:53

解決方案2
4 2009-10-28 22:15:11

解決方案3
3 已采納 2009-10-28 22:09:57

解決方案4
0 2009-10-28 22:25:35

如何按散列值之一對散列引用數組進行排序？

問題描述

4 個解決方案

解決方案1 7 2009-10-28 22:13:53

解決方案2 4 2009-10-28 22:15:11

解決方案3 3 已采納 2009-10-28 22:09:57

解決方案4 0 2009-10-28 22:25:35

解決方案1
7 2009-10-28 22:13:53

解決方案2
4 2009-10-28 22:15:11

解決方案3
3 已采納 2009-10-28 22:09:57

解決方案4
0 2009-10-28 22:25:35