使用Sed / Awk在UNIX中合并两行

Question

考虑在UNIX中具有以下管道分隔行的源文件。 本示例有五行。 第1,2和4行是好的，但是第3和第5行由于文本中的换行符而分成两行。 我必须通过仅在t处删除新行来将第3行合并为单行并将第5行合并为单行，然后加载到oracle表中。

如何使用sed / awk或任何其他UNIX命令来实现？

输入示例：

 1. 9187-001|COS 60W 16G T1A CLV|||||10  
 2. 9184-002|COS 48W 28G NT SKO|FOOTAGE/SEQUENCE GRIDS||||10  
 3. 9679-229|COS 56G 40G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES  
(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10  
 4. 9184-230|COS48W 48G NT LIF SKO|LIFE STORE COSMETIC FOOTAGE/SEQUENCE GRID||||10  
 5. 9679-230|COS 56G 44G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES  
(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10

所需的输出：

1. 9187-001|COS 60W 16G T1A CLV|||||10  
2. 9184-002|COS 48W 28G NT SKO|FOOTAGE/SEQUENCE GRIDS||||10  
3. 9679-229|COS 56G 40G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10  
4. 9184-230|COS48W 48G NT LIF SKO|LIFE STORE COSMETIC FOOTAGE/SEQUENCE GRID||||10  
5. 9679-230|COS 56G 44G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10

Answer 1

通过perl，

perl -00pe 's/\n(?!\h*\d)//g' file

要么

$ perl -00pe 's/\n(?=\()//g' file
 1. 9187-001|COS 60W 16G T1A CLV|||||10  
 2. 9184-002|COS 48W 28G NT SKO|FOOTAGE/SEQUENCE GRIDS||||10  
 3. 9679-229|COS 56G 40G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10  
 4. 9184-230|COS48W 48G NT LIF SKO|LIFE STORE COSMETIC FOOTAGE/SEQUENCE GRID||||10  
 5. 9679-230|COS 56G 44G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10

Answer 2

似乎每一行应该有7个字段：

awk -F'|' '
    {$0 = prev $0} 
    NF < 7 {prev = $0} 
    NF == 7 {print; prev=""}
' file

但实际上，您应该使用适当的CSV解析器：

perl -MText::CSV -Mautodie -E '
    $csv = Text::CSV->new({binary => 1, sep_char => "|", quote_space => 0});
    open $fh, "<", shift;
    while ($row = $csv->getline($fh)) {
        $csv->combine( map {s/\n//g; $_} @$row );
        say $csv->string();
    }
' file

 1. 9187-001|COS 60W 16G T1A CLV|||||10  
 2. 9184-002|COS 48W 28G NT SKO|FOOTAGE/SEQUENCE GRIDS||||10  
 3. 9679-229|COS 56G 40G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES  (ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10  
 4. 9184-230|COS48W 48G NT LIF SKO|LIFE STORE COSMETIC FOOTAGE/SEQUENCE GRID||||10  
 5. 9679-230|COS 56G 44G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES  (ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10

Answer 3

对于多字符RS，使用GNU awk：

$ awk -v RS='^$' -v ORS= '{gsub(/\s*\n\(/,"(")}1' file
 1. 9187-001|COS 60W 16G T1A CLV|||||10
 2. 9184-002|COS 48W 28G NT SKO|FOOTAGE/SEQUENCE GRIDS||||10
 3. 9679-229|COS 56G 40G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10
 4. 9184-230|COS48W 48G NT LIF SKO|LIFE STORE COSMETIC FOOTAGE/SEQUENCE GRID||||10
 5. 9679-230|COS 56G 44G NT SVO|"FOOTAGE/SEQUENCE GRIDS FOR STREETSCAPE STORES(ALL COSMETICS ON 60"" HIGH GONDOLAS"||||10

Answer 4

也可以用awk完成

awk '{if(!match($0,"[0-9]\\. ")){print prev$0}else{print $0}; prev=$0}' file

使用Sed / Awk在UNIX中合并两行

问题描述

输入示例：

所需的输出：

4 个解决方案

解决方案1
1 2015-05-01 16:02:09

解决方案2
1 2015-05-01 16:33:04

解决方案3
1 已采纳 2015-05-01 17:02:51

解决方案4
0 2015-05-01 16:11:51

使用Sed / Awk在UNIX中合并两行

问题描述

输入示例：

所需的输出：

4 个解决方案

解决方案1 1 2015-05-01 16:02:09

解决方案2 1 2015-05-01 16:33:04

解决方案3 1 已采纳 2015-05-01 17:02:51

解决方案4 0 2015-05-01 16:11:51

解决方案1
1 2015-05-01 16:02:09

解决方案2
1 2015-05-01 16:33:04

解决方案3
1 已采纳 2015-05-01 17:02:51

解决方案4
0 2015-05-01 16:11:51