在Bash中加速基于行内容的大文本文件的分离

Question

我有一个非常大的文本文件（大约20 GB和3亿行），其中包含由制表符分隔的三列：

word1 word2 word3
word1 word2 word3
word1 word2 word3
word1 word2 word3

word1，word2和word3在每一行中都不同。 word3指定行的类，并经常为不同的行重复（具有数千个不同的值）。 目标是通过行类（word3）分隔文件。 即word1和word2应该存储在一个名为word3的文件中，用于所有行。 例如，对于该行：

a b c

字符串“ab”应该附加到名为c的文件中。

现在我知道如何使用while循环，逐行读取文件，并为每一行附加适当的文件：

while IFS='' read -r line || [[ -n "$line" ]]; do
    # Variables
    read -a line_array <<< ${line}
    word1=${line_array[0]}
    word2=${line_array[1]}
    word3=${line_array[2]}

    # Adding word1 and word2 to file word3
    echo "${word1} ${word2}" >> ${word3}  
done < "inputfile"

它工作，但速度很慢（即使我有一个带SSD的快速工作站）。 怎么加速？ 我已经尝试在/ dev / shm中执行此过程，并将文件拆分为10个并且为每个文件并行运行上面的脚本。 但它仍然很慢。 有没有办法进一步加快速度？

Answer 1

让我们生成一个示例文件：

$ seq -f "%.0f" 3000000 | awk -F $'\t' '{print $1 FS "Col_B" FS int(2000*rand())}' >file

这会产生一个300万行文件，在第3列中有2,000个不同的值，类似于：

$ head -n 3 file; echo "..."; tail -n 3 file
1   Col_B   1680
2   Col_B   788
3   Col_B   1566
...
2999998 Col_B   1562
2999999 Col_B   1803
3000000 Col_B   1252

使用简单的awk您可以生成以这种方式描述的文件：

$ time awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file
real    3m31.011s
user    0m25.260s
sys     3m0.994s

这样awk将在大约3分31秒内生成2,000个组文件。 肯定比Bash快，但通过第三列预分配文件并一次写入每个组文件可以更快。

您可以在管道中使用Unix sort实用程序，并将输出提供给可将已排序组分离到不同文件的脚本。 将-s选项与sort一起使用，第三个字段的值将是唯一将改变行顺序的字段。

由于我们可以假设sort已根据文件的第3列将文件分区为组，因此脚本只需检测该值何时更改：

$ time sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m4.727s
user    0m5.495s
sys     0m0.541s

由于预分配获得的效率，相同的净过程在5秒内完成。

如果您确定第3列中的“单词”仅为ascii（即，您不需要处理UTF-8），则可以设置LC_ALL=C以获得LC_ALL=C 速度：

$ time LC_ALL=C sort -s -k3 file | awk -F $'\t' 'fn != ($3 "") { close(fn); fn = $3 } { print $1 " " $2 > fn }'
real    0m3.801s
user    0m3.796s
sys     0m0.479s

来自评论：

1） 请添加一行来解释为什么我们需要fn != ($3 "")的括号表达式 ：

fn != ($3 "") {action}的awk结构是fn != $3 || fn=="" {action}的有效快捷方式 fn != $3 || fn=="" {action}使用您认为最具可读性的那个。

2） 如果文件大于可用内存，则不确定这是否也有效，因此这可能是一个限制因素。 ：

我运行了第一个和最后一个awk，包含3亿条记录和20,000个输出文件。 排序的最后一个在12分钟内完成了任务。 第一次花了10个小时......

这可能是排序版本实际上更好地扩展，因为打开附加和关闭20,000文件3亿次需要一段时间。 组合和传输类似数据更有效。

3） 我之前考虑的是排序，但后来觉得它可能不是最快的，因为我们必须用这种方法读取整个文件两次。 ：

这是纯粹随机数据的情况; 如果实际数据有些有序，则需要权衡两次读取文件。 使用较少的随机数据，第一个awk会明显更快。 但是，确定文件是否已排序还需要时间。 如果您知道文件主要是排序的，请使用第一个; 如果它可能有些混乱，请使用最后一个。

Answer 2

你可以使用awk：

awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }' file

Answer 3

以awk为例：

awk -F '{ print $1 FS $2 > $3 }' FILES

或者这个Perl脚本（由我编写） - 我不会在这里重新发布它，因为它有点长。 awk应该稍慢，因为它（重新）打开每行的文件。 每当您有超过250个不同的值/输出文件（或者您的操作系统对同时打开的文件句柄数量的限制）时，这比Perl脚本更好。 Perl脚本尝试将所有输入数据保存在内存中，这样速度要快得多，但对于大输入可能会有问题。

用户oguzismail发布了大量输出文件的解决方案：

awk '{ print $1 FS $2 >> $3; close($3) }' file

这（重新）打开每行的输出文件，它不会遇到同时打开太多打开输出文件句柄的问题。 （重新）打开文件可能会更慢，但据报道不是。

编辑：修复了awk调用 - 它将整行打印到输出，而不是前两列。

Answer 4

此解决方案使用GNU并行，但可以使用其他awk解决方案进行调整。 它还有一个很好的进度条：

parallel -a data_file --bar 'read -a arr <<< {}; echo "${arr[0]} ${arr[1]}" >> ${arr[2]}'

Answer 5

你的问题在本质上是非常相似的，是否有可能通过GNU并行将awk写入多个文件？

如果您的磁盘可以处理它：

splitter() {
  mkdir -p $1
  cd $1
  awk -F $'\t' '{ print $1 " " $2 >> $3; close($3) }'
}
export -f splitter
# Do the splitting in each dir 
parallel --pipepart -a myfile --block -1 splitter {%}
# Merge the results
parallel 'cd {}; ls' ::: dir-* | sort -u | parallel 'cat */{} > {}'
# Cleanup dirs
rm -r */

在Bash中加速基于行内容的大文本文件的分离

问题描述

5 个解决方案

解决方案1
4 已采纳 2018-10-20 19:12:28

解决方案2
3 2018-10-20 14:17:35

解决方案3
2 2018-10-20 14:18:03

解决方案4
2 2018-10-20 14:34:23

解决方案5
1 2018-10-20 16:53:00

在Bash中加速基于行内容的大文本文件的分离

问题描述

5 个解决方案

解决方案1 4 已采纳 2018-10-20 19:12:28

解决方案2 3 2018-10-20 14:17:35

解决方案3 2 2018-10-20 14:18:03

解决方案4 2 2018-10-20 14:34:23

解决方案5 1 2018-10-20 16:53:00

解决方案1
4 已采纳 2018-10-20 19:12:28

解决方案2
3 2018-10-20 14:17:35

解决方案3
2 2018-10-20 14:18:03

解决方案4
2 2018-10-20 14:34:23

解决方案5
1 2018-10-20 16:53:00