AWK FPAT 无法按预期进行字符串解析

Question

我必须解析一个非常长的字符串（来自标准输入）。 它基本上是一个.sql 文件。 我必须从中获取数据。 我正在解析数据，以便将其转换为 csv。 为此，我使用的是 awk。 就我而言，一个示例片段（两条记录）如下：

b="(abc@xyz.com,www.example.com,'field2,(2)'),(dfr@xyz.com,www.example.com,'field0'),"
echo $b|awk 'BEGIN {FPAT = "([^\\)]+)|('\''[^'\'']+'\'')"}{print $1}'

在我的正则表达式中，我说的是“）”括号上的拆分，或者如果找到单引号，则忽略所有文本，直到找到最后一个引号。 但是我的output如下：

(abc@xyz.com,www.example.com,'field2,(2

我期待这个 output

(abc@xyz.com,www.example.com,'field2,(2)'

我的代码中的问题在哪里。 我搜索了很多并检查了 awk 手册，但没有成功。

Answer 1

我在下面的第一个答案是错误的，您正在尝试做的事情有一个 ERE：

$ echo "$b" | awk -v FPAT="[(]([^)]|'[^']*')*)" '{for (i=1; i<=NF; i++) print $i}'
(abc@xyz.com,www.example.com,'field2,(2)')
(dfr@xyz.com,www.example.com,'field0')

原始答案，另一种方法：

您需要一种 2-pass 方法，首先将引用字段中的所有)替换为输入中尚不存在的内容（例如 RS），然后识别(...)字段并将 RS 放回) s在打印它们之前：

$ echo "$b" |
awk -F"'" -v OFS= '
    {
        for (i=2; i<=NF; i+=2) {
            gsub(/)/,RS,$i)
            $i = FS $i FS
        }
        FPAT = "[(][^)]*)"
        $0 = $0
        for (i=1; i<=NF; i++) {
            gsub(RS,")",$i)
            print $i
        }
        FS = FS
    }
'
(abc@xyz.com,www.example.com,'field2,(2)')
(dfr@xyz.com,www.example.com,'field0')

由于 FPAT，以上内容仅适用于 gawk（或者我们可以使用 gawk patsplit() ），而其他 awk 则使用了 while-match()-substr() 循环：

$ echo "$b" |
awk -F"'" -v OFS= '
    {
        for (i=2; i<=NF; i+=2) {
            gsub(/)/,RS,$i)
            $i = FS $i FS
        }
        while ( match($0,/[(][^)]*)/) ) {
            field = substr($0,RSTART,RLENGTH)
            gsub(RS,")",field)
            print field
            $0 = substr($0,RSTART+RLENGTH)
        }
    }
'
(abc@xyz.com,www.example.com,'field2,(2)')
(dfr@xyz.com,www.example.com,'field0')

Answer 2

使用您在 GNU awk中显示的示例编写和测试。 这可以在简单的字段分隔符设置中完成，请尝试执行一次，其中b是您的 shell 变量，其中包含您的显示值。

echo "$b" | awk -F'\\),\\(' '{print $1}'
(abc@xyz.com,www.example.com,'field2,(2)'

说明：只需将awk程序的字段分隔符设置为\\),\\(用于您的输入和打印它的第一个字段。

Answer 3

与 Ed 建议的类似的正则表达式方法，但我通常更喜欢使用RS和RT而不是FPAT ：

b="(abc@xyz.com,www.example.com,'field2,(2)'),(dfr@xyz.com,www.example.com,'field0'),"
awk -v RS="[(]('[^']*'|[^)])*[)]" 'RT {print RT}' <<< "$b"
(abc@xyz.com,www.example.com,'field2,(2)')
(dfr@xyz.com,www.example.com,'field0')

Answer 4

如果你想接近一次，也许试试这个

{mawk/mawk2/gawk} 'BEGIN { OFS = FS = "\047"; ORS = RS = "\n";

        XFS = "\376\004\377"; 
        XRS = "\051" ORS;
    
    } ! /[\051]/ { print; next; } { for (x=1; x <= NF; x += 2) { 

        gsub(/[\051][^\050]*/, XFS, $(x)); } } gsub(XFS, XRS) || 1'

我用 2 个 gsub 这样做，以防它开始在下面发送行并产生意想不到的后果。 \051 = ")", \050 是开放的。

如果没有找到右括号，则告诉它立即打印并继续前进，从而进一步增强了它（所以根本没有要拆分的东西）

一旦我用单引号 \047 拆分它，它只会在奇数字段上循环（因为偶数字段恰好是一对单引号中你想要避免砍掉的那些）。

至于 XFS，只需使用几乎不可能遇到的字节来选择您选择的任意组合。 如果您想安全起见，可以测试该行中是否存在 XFS，并使用一些替代组合。 基本上是在不会与实际输入数据发生冲突的行中间插入一个分隔符。 它本身并不是万无一失的，但是遇到 UTF16 字节顺序标记和 ASCII 控制字符组合的可能性相当低。

（如果您遇到 XFS，很可能您一开始就已经损坏了数据，因为 300 系列八进制必须后跟 200 系列八进制才能成为有效的 UTF8）

这样，我根本不需要 FPAT。

*在结尾处更新为“|| 1”作为安全保护，但实际上并不需要。

AWK FPAT 无法按预期进行字符串解析

问题描述

4 个解决方案

解决方案1
3 已采纳 2021-02-10 13:09:14

解决方案2
2 2021-02-10 11:31:33

解决方案3
1 2021-02-10 16:00:24

解决方案4
1 2021-02-11 19:20:07

AWK FPAT 无法按预期进行字符串解析

问题描述

4 个解决方案

解决方案1 3 已采纳 2021-02-10 13:09:14

解决方案2 2 2021-02-10 11:31:33

解决方案3 1 2021-02-10 16:00:24

解决方案4 1 2021-02-11 19:20:07

解决方案1
3 已采纳 2021-02-10 13:09:14

解决方案2
2 2021-02-10 11:31:33

解决方案3
1 2021-02-10 16:00:24

解决方案4
1 2021-02-11 19:20:07