"使用 awk 基于另一个文件从文件中提取行"

Question

我有两个文件。

文件 1：

SNP Allele1 Allele2 Effect  StdErr  PVAL    Direction   HetISq  HetChiSHetDf    HetPVal
rs12266638  t   g   0.4259  0.0838  3.776e-07   +?  0.0 0.000   0   1
rs7995014   t   c   2.2910  0.5012  4.853e-06   +?  0.0 0.000   0   1

Answer 1

你可以使用这个awk<\/code> ：

awk 'FNR==NR {a[$3]; next} FNR> 1 && $1 in a' file2 file1

rs12266638  t   g   0.4259  0.0838  3.776e-07   +?  0.0 0.000   0   1

Answer 2

根据数据集的大小，这应该相当快，每个文件只访问一次。 当然，不是在我目前可以比较的系统上，所以主要是一种预感。 不过，这样的解决方案可能仅适用于唯一标识符的数量不是很大的情况。

#!/bin/bash
snp_expression=$(awk 'FNR>1{print $3}' file_2 | sort -u | paste -sd "|")
grep -E "^(${snp})[[:space:]]" file_1 > file_3

Answer 3

适用于 SNP 字段的任何位置的更通用的解决方案：

# SO71009277.awk
BEGIN {
  fnr = 0
  while ((getline < ARGV[1]) > 0) {
    ++fnr
    if (fnr == 1) {
      for (i=1; i<=NF; i++)
        FIELDBYNAME1[$i] = i # e.g. FIELDBYNAME1["SNP"] = 1
    }
    else {
      SNP_KEY[$FIELDBYNAME1["SNP"]] = $0
    }    
  }
  close(ARGV[1])

  fnr = 0
  while ((getline < ARGV[2]) > 0) {
    ++fnr
    if (fnr == 1) {
      for (i=1; i<=NF; i++)
        FIELDBYNAME2[$i] = i # e.g. FIELDBYNAME2["SNP"] = 3
    }
    else {
      if ($FIELDBYNAME2["SNP"] in SNP_KEY)
        print SNP_KEY[$FIELDBYNAME2["SNP"]]
    }    
  }
  close(ARGV[2])
}

称呼：

awk -f SO71009277.awk file1.txt file2.txt
=>
rs12266638  t   g   0.4259  0.0838  3.776e-07   +?  0.0 0.000   0   1

"使用 awk 基于另一个文件从文件中提取行"

问题描述

3 个解决方案

解决方案1
1 2022-02-06 16:47:13

解决方案2
0 2022-02-06 18:01:56

解决方案3
0 2022-02-06 20:03:06

"使用 awk 基于另一个文件从文件中提取行"

问题描述

3 个解决方案

解决方案1 1 2022-02-06 16:47:13

解决方案2 0 2022-02-06 18:01:56

解决方案3 0 2022-02-06 20:03:06

解决方案1
1 2022-02-06 16:47:13

解决方案2
0 2022-02-06 18:01:56

解决方案3
0 2022-02-06 20:03:06