使用sed | awk和group進行替換的正則表達式

Question

我有這個輸入文字

16789248,16789759,"AS24155 Asia Pacific Broadband Wireless Communications Inc"

我想要這個文字

"AS24155","Asia Pacific Broadband Wireless Communications Inc"

此正則表達式匹配

 /(.*)(AS\d+)(\s)([^"]+).*/g

替換為"$2","$4"

我必須處理30萬行，如果能夠使用基於sed或awk的基於Linux的命令行實用程序，那將是最好的選擇，但是即使正則表達式似乎在其他地方也可以匹配，但我一直沒有匹配。

我應該使用其他東西嗎？

Answer 1

sed -r可以進行一些修改： [0-9]代替\\d和<space>代替\\s 。 沒有真正的理由要抓住第一部分和第三部分，因此我刪除了這些組。

sed -r -e 's/.*(AS[0-9]+) ([^"]+).*/"\1","\2"/'

或者，如果你想完全匹配的字符類，使用[[:digit:]]為\\d和[[:space:]]為\\s ：

sed -r -e 's/.*(AS[[:digit:]]+)[[:space:]]([^"]+).*/"\1","\2"/'

另外，您可以使用csvtool ，它比sed更適合於解析CSV文件。

csvtool col 3 input.txt | while read number name; do
    printf '"%s","%s"\n' "$number" "$name"
done

Answer 2

sed 's/[^"]*"/"/;s[[:space:]]/","/'

根據您的樣本並避免分組的問題

Answer 3

sed是最佳選擇，但僅供參考，這是您可以在GNU awk中幾乎使用您的確切RE來完成的工作：

$ awk 'match($0,/.*(AS[0-9]+)\s([^"]+).*/,a){printf "\"%s\",\"%s\"\n", a[1], a[2]}' file
"AS24155","Asia Pacific Broadband Wireless Communications Inc"

您的原始命令可能失敗，因為只有某些工具接受\\s而不是[[:space:]] ，幾乎沒有工具接受\\d而不是[[:digit:]] （或[0-9] ）。

使用sed | awk和group進行替換的正則表達式

問題描述

3 個解決方案

解決方案1
1 已采納 2015-04-15 23:17:51

解決方案2
0 2015-04-16 08:11:15

解決方案3
0 2015-04-16 12:55:30

使用sed | awk和group進行替換的正則表達式

問題描述

3 個解決方案

解決方案1 1 已采納 2015-04-15 23:17:51

解決方案2 0 2015-04-16 08:11:15

解決方案3 0 2015-04-16 12:55:30

解決方案1
1 已采納 2015-04-15 23:17:51

解決方案2
0 2015-04-16 08:11:15

解決方案3
0 2015-04-16 12:55:30