在python中查找列表和字典之间的共同元素

Question

我有两个这样的文件，蛋白质列表-

TRIUR3_05947-P1
TRIUR3_06394-P1
Traes_1BL_EB95F4919.2

制表符分隔的重叠群和蛋白质的字典-

contig22 TRIUR3_05947-P1
contig15 TRIUR3_05947-P1
contig1 Traes_1BL_EB95F4919.2
contig67 Traes_1BL_EB95F4919.2
contig98 Traes_1BL_EB95F4919.2
contig45 MLOC_71599.4

我想要的输出是它可以找到所有常见的蛋白质，并像这样打印出结果，

contig22 TRIUR3_05947-P1
contig15 TRIUR3_05947-P1
contig1 Traes_1BL_EB95F4919.2
contig67 Traes_1BL_EB95F4919.2
contig98 Traes_1BL_EB95F4919.2

这是我下面的脚本，但是它给了我通用密钥的结果，我想这很重要，如何解决？

f1=open('mydict.txt','r')
f2=open('mylist.txt','r')
output = open('result.txt','w')
dictA= dict()
for line1 in f1:
    listA = line1.rstrip('\r\n').split('\t')
    dictA[listA[1]] = listA[0]

for line1 in f2:
    new_list=line1.rstrip('\n').split()
    query=new_list[0]
    if query in dictA:
        listA[0] = dictA[query]
        output.write(query+'\t'+str(listA[0])+'\n')

Answer 1

在您的第一个for循环中，将txt文件转换为python字典时，您将丢失信息：

for ...:
    dictA[listA[1]] = listA[0]

例如，如果您有

contig1 Traes_1BL_EB95F4919.2
contig67 Traes_1BL_EB95F4919.2
contig98 Traes_1BL_EB95F4919.2

在您的txt文件中，生成的字典将仅具有最后一项的键-值对，即相反。

为了实现您的目标，只需对程序进行最少的修改，请尝试

from collections import defaultdict

f1=open('mydict.txt','r')
f2=open('mylist.txt','r')
output = open('result.txt','w')
dictA= defaultdict(list)

for line1 in f1:
    listA = line1.rstrip('\r\n').split('\t')
    dictA[listA[1]].append(listA[0])  # Save all the common proteins

for line1 in f2:
    new_list=line1.rstrip('\n').split()
    query=new_list[0]
    if query in dictA:
        listA = dictA[query]  # Now have a list of matching contigs
        for contig in listA:
            output.write(contig + '\t' + query +'\n')

Answer 2

您执行错误的方法。 如果将“字典文件”存储在字典结构中，并使用蛋白质名称作为键，则会丢失信息。

更好的方法是先读取蛋白质列表，然后将所有蛋白质名称存储在一个集中。 然后，您阅读字典文件并打印其蛋白质名称在集合中的所有行。

with open('mylist.txt') as mylist:
    proteins = set(line.strip() for line in mylist)

with open('mydict.txt') as mydict, open('result.txt', 'w') as output:
    for line in mydict:
        _, protein = line.strip().split()
        if protein in proteins:
            output.write(line)

在python中查找列表和字典之间的共同元素

问题描述

2 个解决方案

解决方案1
1 2014-06-13 15:18:37

解决方案2
1 已采纳 2014-06-13 15:33:04

在python中查找列表和字典之间的共同元素

问题描述

2 个解决方案

解决方案1 1 2014-06-13 15:18:37

解决方案2 1 已采纳 2014-06-13 15:33:04

解决方案1
1 2014-06-13 15:18:37

解决方案2
1 已采纳 2014-06-13 15:33:04