[英]Speeding up separation of large text file based on line content in Bash
我有一个非常大的文本文件(大约20 GB和3亿行),其中包含由制表符分隔的三列:
word1 word2 word3
word1 word2 word3
word1 word2 word3
word1 word2 word3
word1,word2和word3在每一行中都不同。 word3指定行的类,并经常为不同的行重复(具有数千个不同的值)。 目标是通过行类(word3)分隔文件。 即word1和word2应该存储在一个名为word3的文件中,用于所有行。 例如,对于该行:
a b c
字符串“ab”应该附加到名为c的文件中。
现在我知道如何使用while循环,逐行读取文件,并为每一行附加适当的文件:
while IFS='' read -r line || [[ -n "$line" ]]; do
# Variables
read -a line_array <<< ${line}
word1=${line_array[0]}
word2=${line_array[1]}
word3=${line_array[2]}
# Adding word1 and word2 to file word3
echo "${word1} ${word2}" >> ${word3}
done < "inputfile"
它工作,但速度很慢(即使我有一个带SSD的快速工作站)。 怎么加速? 我已经尝试在/ dev / shm中执行此过程,并将文件拆分为10个并且为每个文件并行运行上面的脚本。 但它仍然很慢。 有没有办法进一步加快速度?
让我们生成一个示例文件:
$ seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file
这会产生一个300万行文件,在第3列中有2,000个不同的值,类似于:
$ head -n 3 file; echo "..."; tail -n 3 file
1 Col_B 1680
2 Col_B 788
3 Col_B 1566
...
2999998 Col_B 1562
2999999 Col_B 1803
3000000 Col_B 1252
使用简单的awk
您可以生成以这种方式描述的文件:
$ time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
real 3m31.011s
user 0m25.260s
sys 3m0.994s
这样awk将在大约3分31秒内生成2,000个组文件。 肯定比Bash快,但通过第三列预分配文件并一次写入每个组文件可以更快。
您可以在管道中使用Unix sort
实用程序,并将输出提供给可将已排序组分离到不同文件的脚本。 将-s
选项与sort
一起使用,第三个字段的值将是唯一将改变行顺序的字段。
由于我们可以假设sort
已根据文件的第3列将文件分区为组,因此脚本只需检测该值何时更改:
$ time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real 0m4.727s
user 0m5.495s
sys 0m0.541s
由于预分配获得的效率,相同的净过程在5秒内完成。
如果您确定第3列中的“单词”仅为ascii(即,您不需要处理UTF-8),则可以设置LC_ALL=C
以获得LC_ALL=C
速度 :
$ time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real 0m3.801s
user 0m3.796s
sys 0m0.479s
来自评论:
1) 请添加一行来解释为什么我们需要fn != ($3 "")
的括号表达式 :
fn != ($3 "") {action}
的awk
结构是fn != $3 || fn=="" {action}
的有效快捷方式 fn != $3 || fn=="" {action}
使用您认为最具可读性的那个。
2) 如果文件大于可用内存,则不确定这是否也有效,因此这可能是一个限制因素。 :
我运行了第一个和最后一个awk,包含3亿条记录和20,000个输出文件。 排序的最后一个在12分钟内完成了任务。 第一次花了10个小时......
这可能是排序版本实际上更好地扩展,因为打开附加和关闭20,000文件3亿次需要一段时间。 组合和传输类似数据更有效。
3) 我之前考虑的是排序,但后来觉得它可能不是最快的,因为我们必须用这种方法读取整个文件两次。 :
这是纯粹随机数据的情况; 如果实际数据有些有序,则需要权衡两次读取文件。 使用较少的随机数据,第一个awk会明显更快。 但是,确定文件是否已排序还需要时间。 如果您知道文件主要是排序的,请使用第一个; 如果它可能有些混乱,请使用最后一个。
你可以使用awk:
awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
以awk
为例:
awk -F '{ print $1 FS $2 > $3 }' FILES
或者这个Perl脚本 (由我编写) - 我不会在这里重新发布它,因为它有点长。 awk
应该稍慢,因为它(重新)打开每行的文件。 每当您有超过250个不同的值/输出文件(或者您的操作系统对同时打开的文件句柄数量的限制)时,这比Perl脚本更好。 Perl脚本尝试将所有输入数据保存在内存中,这样速度要快得多,但对于大输入可能会有问题。
用户oguzismail发布了大量输出文件的解决方案:
awk '{ print $1 FS $2 >> $3; close($3) }' file
这(重新)打开每行的输出文件,它不会遇到同时打开太多打开输出文件句柄的问题。 (重新)打开文件可能会更慢,但据报道不是。
编辑:修复了awk
调用 - 它将整行打印到输出,而不是前两列。
此解决方案使用GNU并行,但可以使用其他awk
解决方案进行调整。 它还有一个很好的进度条:
parallel -a data_file --bar 'read -a arr <<< {}; echo "${arr[0]} ${arr[1]}" >> ${arr[2]}'
你的问题在本质上是非常相似的, 是否有可能通过GNU并行将awk写入多个文件?
如果您的磁盘可以处理它:
splitter() {
mkdir -p $1
cd $1
awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }'
}
export -f splitter
# Do the splitting in each dir
parallel --pipepart -a myfile --block -1 splitter {%}
# Merge the results
parallel 'cd {}; ls' ::: dir-* | sort -u | parallel 'cat */{} > {}'
# Cleanup dirs
rm -r */
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.