使用awk過濾掉無法識別的字段

Question

我有一個CVS文件，希望在其中找到一些值，例如Y或N 人們在添加評論或任意條目，例如NA? 我要刪除的內容：

Create,20055776,Y,,Y,Y,,Y,,NA?,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,,,,,,Y,,,NA ?,,,Y,,,,,,TBD,,,,,,,,,

我可以使用gsub刪除我期望的內容，例如：

$ cat test.csv | awk '{gsub("NA\\?", ""); gsub("NA \\?",""); gsub("TBD", ""); print}'
Create,20055776,Y,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,,,,,,Y,,,,,,Y,,,,,,,,,,,,,,,

但是，如果有人添加新評論，那將被打破。 我正在尋找一個正則表達式將匹配項概括為“非Y”。

我嘗試了一些負面的環顧四周，但無法在我擁有的ANU上使用它，即GNU Awk 4.2.1, API: 2.0 (GNU MPFR 4.0.1, GNU MP 6.1.2) 。 提前致謝！

Answer 1

awk 'BEGIN{FS=OFS=","}{for (i=3;i<=NF;i++) if ($i !~ /^(y|Y|n|N)$/) $i="";print}' test.CSV
Create,20055776,Y,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,,,,,,Y,,,,,,Y,,,,,,,,,,,,,,,

僅接受Y / N（不區分大小寫）。

Answer 2

 awk 'BEGIN{OFS=FS=","}{for(i=3;i<=NF;i++){if($i!~/^[Y]$/){$i=""}}; print;}'

這似乎可以解決問題。 從第三個字段循環到最后一個字段，如果該字段不是Y，則將其替換為空。 由於我們要修改字段，因此我們還需要設置OFS。

$ cat file.txt
Create,20055776,Y,,Y,Y,,Y,,NA?,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,,,,,,Y,,,NA ?,,,Y,,,,,,TBD,,,,,,,,,

$ awk 'BEGIN{OFS=FS=","}{for(i=3;i<=NF;i++){if($i!~/^[Y]$/){$i=""}}; print;}'
Create,20055776,Y,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,,,,,,Y,,,,,,Y,,,,,,,,,,,,,,,

如果您也想接受“ N”，則/^[YN]$/將起作用。

Answer 3

cat test.CSV | awk 'BEGIN{FS=OFS=","}{for (i=3;i<=NF;i++) if($i != "Y") $i=""; print}'

輸出：

Create,20055776,Y,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,,,,,,Y,,,,,,Y,,,,,,,,,,,,,,,

更新：因此，如果您只是想確定它是否為“ Y”，則無需使用正則表達式。

但是，如果你想使用正則表達式，如zzevannn的答案和天衣的回答已經給了正則表達式的條件偉大的想法，所以我給了一批由正則表達式替換，而不是：

確切地說，為了增加挑戰，我創建了一些邊界條件：

$ cat test.CSV
Create,20055776,Y,,Y,Y,,Y,,YNA?,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,YN.Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,NANN,,,,,Y,,,NA ?Y,,,Y,,,,,,TYBD,,,,,,,,,

批量替換為：

$ awk 'BEGIN{FS=OFS=","}{fst=$1;sub($1 FS,"");print fst,gensub("(,)[^,]*[^Y,]+[^,]*","\\1","g",$0);}' test.CSV
Create,20055776,Y,,Y,Y,,Y,,,,Y,,Y,Y,,Y,,,Y,,Y,,,Y,,,,,,,,
Create,20055777,,,,Y,Y,,Y,,,,Y,,Y,Y,,,,,Y,,Y,,,Y,,,,,,,,
Create,20055779,,Y,,,,,,,,Y,,,,,,Y,,,,,,,,,,,,,,,

"(,)[^,]*[^Y,]+[^,]*"用來匹配兩個逗號之間除單個Y之外的任何內容。
注意，我保存了$1然后先刪除了$1 and the comma after it ，然后再打印回去。

Answer 4

sed解決方案

# POSIX
sed -e ':a' -e 's/\(^Create,[0-9]*\(,Y\{0,1\}\)*\),[^Y,][^,]*/\1/;t a' test.csv

# GNU
sed ':a;s/\(^Create,[0-9]*\(,Y\{0,1\}\)*\),[^Y,][^,]*/\1/;ta' test.csv

在相同的概念上awk（避免缺少OR正則表達式的sed問題）

awk -F ',' '{ Idx=$2;gsub(/,[[:blank:]]*[^YN,][^,]*/, "");sub( /,/, "," Idx);print}'

使用awk過濾掉無法識別的字段

問題描述

4 個解決方案

解決方案1
6 2019-01-03 17:02:16

解決方案2
2 2019-01-03 16:59:47

解決方案3
1 已采納 2019-01-03 16:55:46

解決方案4
0 2019-01-04 14:57:28

使用awk過濾掉無法識別的字段

問題描述

4 個解決方案

解決方案1 6 2019-01-03 17:02:16

解決方案2 2 2019-01-03 16:59:47

解決方案3 1 已采納 2019-01-03 16:55:46

解決方案4 0 2019-01-04 14:57:28

解決方案1
6 2019-01-03 17:02:16

解決方案2
2 2019-01-03 16:59:47

解決方案3
1 已采納 2019-01-03 16:55:46

解決方案4
0 2019-01-04 14:57:28