繁体   English   中英

是否可以将bash数组作为变量传递给awk?

[英]Is it possible to pass a bash array as a variable to awk?

我有大量数据,我从文本文件导入。 这些文件已预先格式化,以便我可以将每个列导入为bash数组:

2GYS链=(AB)hresname =(BMA FUC NAG NDG)hresnumber =()hatom =()

现在我想从包含多行格式的文件中提取信息:

原子1 N THR A 4 30.127 13.123 1.297 1.00 39.96 N.

例如,我想提取第一列是ATOM并且第五列与链数组匹配的所有行(在这种情况下,它将是A和B)。

UPDATE。 这是我尝试过的:

for c in "${chain[@]}" ; do
  awk -v pdbid="$pdbid" -v c="$c" '{ if($1 == "ATOM" && $5==c) { print $0 } }' ${pdbid}.pdb >> ../../properpdb/${pdbid}_${c}.pdb
done

for c in "${chain[@]}" ; do
 for r in "${hresname[@]}" ; do
   awk -v pdbid="$pdbid" -v c="$c" -v r="$r" '{ if($1 == "HETATM" && $5==c && $4==r) { print $0 } }' ${pdbid}.pdb >> ../../properpdb/${pdbid}_${c}.pdb
 done
done

问题在于,正如预期的那样,这会生成带有链A或B的文件,但不会生成带有两者的文件。 此外,它不会产生数组“chain”和“hresname”的所有可能组合,它只是将“hresname”添加到只有一个“链”可用的文件中。

我的解决方案是在bash中构建你的awk脚本的一部分,特别是匹配函数。

您似乎希望字段匹配$1 == "ATOM" && ($5==c[0] || $5==c[1]...) {print $0}导出到该文件。

在bash中,构造匹配函数为:

cmatch="\$5==\"${chain[0]}\""
for element in $(seq 1 $((${#chain[@]} - 1))); do cmatch+=" || \$5==\"${chain[$element]}\""; done
#cmatch should now be of the form "$5==A || $5==B"

#do the same thing for rmatch
rmatch="\$4==\"${hresname[0]}\""
for element in $(seq 1 $((${#hresname[@]} - 1))); do rmatch+=" || \$4==\"${hresname[$element]}\""; done

现在你的awk脚本可以调整为包含所需的位:(引用继续是一个痛苦,因为你需要确保$ 1下降到awk unmolested,但$ cmatch被评估。)

rmatch='$1=="HETATM" && ('"$cmatch"') && ('"$rmatch"')'  #order is important here :)
cmatch='$1=="ATOM" && ('"$cmatch"')'

所以现在你的匹配脚本应该是完整的。

awk "$cmatch" ${pdbid}.pdb >> ../../properpdb/${pdbid}_c.pdb
awk "$rmatch" ${pdbid}.pdb >> ../../properpdb/${pdbid}_c.pdb

我真的不明白输出文件名, ../../properpdb/${pdbid}_${c}.pdb ,因为那似乎表示c的每个元素的单独文件,这就是你要做的不想要?

如果你想要这些除以c的元素,那么它稍微简单,像上面那样构造rmatch数组,然后做类似的事情

for c in "${chain[@]}" ; do
  awk -v c="$c" '$1=="ATOM" && $5==c' ${pdbid}.pdb  >> ../../properpdb/${pdbid}_${c}.pdb
  awk -v c="$c" '$1=="HETATM" && $5==c && ('"$rmatch"')' ${pdbid}.pdb  >> ../../properpdb/${pdbid}_${c}.pdb
done

如果你想要所有ATOM元素,或者......

for c in "${chain[@]}" ; do
  awk -v c="$c" '$5==c && ($1=="ATOM" || ($1=="HETATM" && ('"$rmatch"')))' ${pdbid}.pdb  >> ../../properpdb/${pdbid}_${c}.pdb
done

如果你想要它们混合在一起

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM