如何提取子文件中存在的化合物名称？

Question

我有一个包含 15000 个文件夹名称的 15000 个化合物名称（文件名：uniq-compounds）的列表。 该文件夹有子文件，即out.pdbqt ，其中包含第 3 行中的化合物名称。 (名称 = 1-叔丁基-5-氧代-N-[2-(3-吡啶基)乙基]-3-吡咯烷甲酰胺)。 我想通过提供 50,000 个文件夹中的 uniq 复合文件（它包含文件夹名称，例如ligand_* ）来提取所有这 15000 个名称。

目录和子文件

sidra---50,000folder (ligand_00001 - ligand50,000)--each contains subfiles (out.pdbqt)--that conatins names.(mention below)
another file (uniq-compound) contains 15000 folder names (that compound names i want).

输出.pdbqt

MODEL 1
REMARK VINA RESULT:      -6.0      0.000      0.000
REMARK  Name = 1-tert-butyl-5-oxo-N-[2-(3-pyridinyl)ethyl]-3-pyrrolidinecarboxamide
REMARK  8 active torsions:
REMARK  status: ('A' for Active; 'I' for Inactive)
REMARK    1  A    between atoms: N_1  and  C_7

Answer 1

假设， uniq-compound.txt包含文件夹名称，每个文件夹包含一个out.pdbqt 。 此外，化合物名称出现在文件out.pdbqt的第三行。 如果是这种情况，下面的脚本将起作用：

#!/bin/bash
while IFS= read -r line; do
    awk 'FNR == 3 {print $4}' $line/out.pdbqt 
done < uniq-compound.txt

Loop 会一一遍历uniq-compound.txt ，对于文件（即文件夹）中的每一行，它使用awk显示该文件out.pdbqt内文件out.pdbqt的第 3 行的第 4 列。

如何提取子文件中存在的化合物名称？

问题描述

目录和子文件

输出.pdbqt

1 个解决方案

解决方案1
0 已采纳 2019-08-09 12:09:26

如何提取子文件中存在的化合物名称？

问题描述

目录和子文件

输出.pdbqt

1 个解决方案

解决方案1 0 已采纳 2019-08-09 12:09:26

解决方案1
0 已采纳 2019-08-09 12:09:26