繁体   English   中英

在Bash中加速基于行内容的大文本文件的分离

[英]Speeding up separation of large text file based on line content in Bash

我有一个非常大的文本文件(大约20 GB和3亿行),其中包含由制表符分隔的三列:

word1 word2 word3
word1 word2 word3
word1 word2 word3
word1 word2 word3

word1,word2和word3在每一行中都不同。 word3指定行的类,并经常为不同的行重复(具有数千个不同的值)。 目标是通过行类(word3)分隔文件。 即word1和word2应该存储在一个名为word3的文件中,用于所有行。 例如,对于该行:

a b c

字符串“ab”应该附加到名为c的文件中。

现在我知道如何使用while循环,逐行读取文件,并为每一行附加适当的文件:

while IFS='' read -r line || [[ -n "$line" ]]; do
    # Variables
    read -a line_array <<< ${line}
    word1=${line_array[0]}
    word2=${line_array[1]}
    word3=${line_array[2]}

    # Adding word1 and word2 to file word3
    echo "${word1} ${word2}" >> ${word3}  
done < "inputfile"

它工作,但速度很慢(即使我有一个带SSD的快速工作站)。 怎么加速? 我已经尝试在/ dev / shm中执行此过程,并将文件拆分为10个并且为每个文件并行运行上面的脚本。 但它仍然很慢。 有没有办法进一步加快速度?

让我们生成一个示例文件:

$ seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file

这会产生一个300万行文件,在第3列中有2,000个不同的值,类似于:

$ head -n 3 file; echo "..."; tail -n 3 file
1   Col_B   1680
2   Col_B   788
3   Col_B   1566
...
2999998 Col_B   1562
2999999 Col_B   1803
3000000 Col_B   1252

使用简单的awk您可以生成以这种方式描述的文件:

$ time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
real    3m31.011s
user    0m25.260s
sys     3m0.994s

这样awk将在大约3分31秒内生成2,000个组文件。 肯定比Bash快,但通过第三列预分配文件并一次写入每个组文件可以更快。

您可以在管道中使用Unix sort实用程序,并将输出提供给可将已排序组分离到不同文件的脚本。 -s选项与sort一起使用,第三个字段的值将是唯一将改变行顺序的字段。

由于我们可以假设sort已根据文件的第3列将文件分区为组,因此脚本只需检测该值何时更改:

$ time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m4.727s
user    0m5.495s
sys     0m0.541s

由于预分配获得的效率,相同的净过程在5秒内完成。

如果您确定第3列中的“单词”仅为ascii(即,您不需要处理UTF-8),则可以设置LC_ALL=C以获得LC_ALL=C 速度

$ time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m3.801s
user    0m3.796s
sys     0m0.479s

来自评论:

1) 请添加一行来解释为什么我们需要fn != ($3 "")的括号表达式

fn != ($3 "") {action}awk结构是fn != $3 || fn=="" {action}的有效快捷方式 fn != $3 || fn=="" {action}使用您认为最具可读性的那个。

2) 如果文件大于可用内存,则不确定这是否也有效,因此这可能是一个限制因素。

我运行了第一个和最后一个awk,包含3亿条记录和20,000个输出文件。 排序的最后一个在12分钟内完成了任务。 第一次花了10个小时......

这可能是排序版本实际上更好地扩展,因为打开附加和关闭20,000文件3亿次需要一段时间。 组合和传输类似数据更有效。

3) 我之前考虑的是排序,但后来觉得它可能不是最快的,因为我们必须用这种方法读取整个文件两次。

这是纯粹随机数据的情况; 如果实际数据有些有序,则需要权衡两次读取文件。 使用较少的随机数据,第一个awk会明显更快。 但是,确定文件是否已排序还需要时间。 如果您知道文件主要是排序的,请使用第一个; 如果它可能有些混乱,请使用最后一个。

你可以使用awk:

awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file

awk为例:

awk -F '{ print $1 FS $2 > $3 }' FILES

或者这个Perl脚本 (由我编写) - 我不会在这里重新发布它,因为它有点长。 awk应该稍慢,因为它(重新)打开每行的文件。 每当您有超过250个不同的值/输出文件(或者您的操作系统对同时打开的文件句柄数量的限制)时,这比Perl脚本更好。 Perl脚本尝试将所有输入数据保存在内存中,这样速度要快得多,但对于大输入可能会有问题。

用户oguzismail发布了大量输出文件的解决方案:

awk '{ print $1 FS $2 >> $3; close($3) }' file

这(重新)打开每行的输出文件,它不会遇到同时打开太多打开输出文件句柄的问题。 (重新)打开文件可能会更慢,但据报道不是。

编辑:修复了awk调用 - 它将整行打印到输出,而不是前两列。

此解决方案使用GNU并行,但可以使用其他awk解决方案进行调整。 它还有一个很好的进度条:

parallel -a data_file --bar 'read -a arr <<< {}; echo "${arr[0]} ${arr[1]}" >> ${arr[2]}'

你的问题在本质上非常相似的, 是否有可能通过GNU并行将awk写入多个文件?

如果您的磁盘可以处理它:

splitter() {
  mkdir -p $1
  cd $1
  awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }'
}
export -f splitter
# Do the splitting in each dir 
parallel --pipepart -a myfile --block -1 splitter {%}
# Merge the results
parallel 'cd {}; ls' ::: dir-* | sort -u | parallel 'cat */{} > {}'
# Cleanup dirs
rm -r */

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM