是否可以使用Linux sort命令對每行末尾的數字進行大型文本文件的排序？

Question

我正在嘗試對文本文件進行排序，其中行的格式如下：

! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 6

並希望按數字下降按最后的數字排序（在本例中為6）。 這些行沒有可預測數量的列，使用空格作為分隔符，但使用||| 作為分隔符，總是有5列，最后一列總是有3個空格分隔的數字，最后一個要排序。 文本文件大約是15gb，我確實有一個perl腳本，我寫了這樣做，但它只適用於我的舊筆記本電腦有32GB的RAM，因為perl一次加載整個文件。 現在我卡住了8GB內存，它只是在幾天內交換文件。 我聽說標准的linux sort命令可以更優雅地處理大文件，但我找不到讓它在最后使用數字的方法。

Answer 1

也許它有點棘手，但這種混合命令可以使它：

awk '$1=$NF" "$1' file | sort -n | cut -d' ' -f2-

主要的想法是我們打印文件，在行的前面附加最后一個值，然后我們排序，最后我們從輸出中刪除該值。

awk '$1=$NF" "$1' file由於要排序的參數是文件中的最后一個，我們也可以在第一個字段中打印它。
sort -n然后我們管道sort -n ，它按數字排序。
cut -d' ' -f2-我們最終打印出我們暫時使用的值。

測試

$ cat a
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 6
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 79
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 19
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 8
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 89
$ awk '$1=$NF" "$1' a | sort -n | cut -d' ' -f2-
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 6
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 8
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 19
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 79
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 89

顯示每個步驟：

$ awk '$1=$NF" "$1' a 
6 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 6
79 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 79
19 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 19
8 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 8
89 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 89
$ awk '$1=$NF" "$1' a | sort -n
6 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 6
8 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 8
19 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 19
79 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 79
89 ! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 89
$ awk '$1=$NF" "$1' a | sort -n | cut -d' ' -f2-
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 6
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 8
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 19
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 79
! ! ! ! ! ||| ! ||| 1.25846e-05 0.248369 3.02708e-07 0.662955 2.718 ||| 0-0 1-0 2-0 3-0 4-0 ||| 476773 1.98211e+07 89

Answer 2

看來你想根據最后一個號碼訂購文件吧？

因此，您可以使用awk復制行開頭的最后一個字段

awk -F, '{ print $NF, $0 }' prova

然后用文件排序

sort -n -k1

最后刪除假的第一個字段：

sed 's/^[0-9][0-9]* //'

這是腳本：

awk -F, '{ print $NF, $0 }' prova | sort -n -k1 | sed 's/^[0-9][0-9]* //'

Answer 3

由於問題是RAM，也許你可以減少使用Tie::File所需的內存。 它允許您通過數組中的索引引用一行。 您可以獲取要排序的數字並使用Schwartzian變換來獲取索引的排序列表，然后在最后重新打印該文件。

use strict;
use warnings;
use Tie::File;

my $file = shift;                           # your filename argument
tie my @lines, 'Tie::File', $file or die $!;
my @list = map $_->[0],                     # restore line number
           sort { $b->[1] <=> $a->[1] }     # sort on captured number
           map { [ $_, $lines[$_] =~ /(\d+)$/ ] } 0 .. $#lines;
           # store an array ref [ ... ] containing line number and number to 
           # sort by
@lines = @lines[@list];

最后一個操作將按排序順序保存文件。 請注意，這是永久性更改，因此請進行備份。 它也可能是一個昂貴的操作，並且Tie::File有一些性能問題。 另一種方法，可能更便宜的是簡單地遍歷數字列表並逐行打印到新文件：

open my $fh, ">", "output.csv" or die $!;
for my $num (@list) {
    print $fh $lines[$num], $/;
}

直接打印到文件會繞過重定向輸出所需的任何shell緩存

Answer 4

假設我被允許破壞原始文件（否則進行復制），您可以通過滾動文件一次並將最后一列轉換為可預測的列號，對最后一列使用sort。 我正在使用@符號作為我認為不會出現在您數據中的內容。 如果這是一個糟糕的假設，任何事情都可以替代。

sed -i 's/ /@/g; s/@\([^@]*\)$/ \1/;' in.txt
# the file now looks like "!@!@|||@whatever@||| 6"
sort --buffer-size=1G -nk 2 in.txt | sed 's/@/ /g' > sorted.txt

是否可以使用Linux sort命令對每行末尾的數字進行大型文本文件的排序？

問題描述

4 個解決方案

解決方案1
4 已采納 2013-09-20 12:45:31

測試

解決方案2
1 2013-09-20 12:56:53

解決方案3
0 2013-09-20 13:35:06

解決方案4
0 2013-09-20 14:16:46

是否可以使用Linux sort命令對每行末尾的數字進行大型文本文件的排序？

問題描述

4 個解決方案

解決方案1 4 已采納 2013-09-20 12:45:31

測試

解決方案2 1 2013-09-20 12:56:53

解決方案3 0 2013-09-20 13:35:06

解決方案4 0 2013-09-20 14:16:46

解決方案1
4 已采納 2013-09-20 12:45:31

解決方案2
1 2013-09-20 12:56:53

解決方案3
0 2013-09-20 13:35:06

解決方案4
0 2013-09-20 14:16:46