繁体   English   中英

比较两个csv文件以输出匹配的Python

[英]Compare two csv files to ouput the matches Python

我有一个名为“ organs.csv”的csv文件,另一个具有大量数据的csv文件。 我正在比较它们以获得它们之间的匹配。 后一个文件没有任何特定格式,因此我不知道哪一列包含有关器官的数据。 我试过下面的代码来获取匹配项,但是有两个问题。

  1. 如果csv2在两列中有一个器官,它将两次追加到列表中。
  2. 如果某行没有任何器官,则将其忽略。

我希望它执行以下操作:

  1. 如果一行中有器官,请跳到下一个器官(每行限制一个器官)
  2. 如果未找到器官,则打印“-”

码:

import csv
filename = "file.csv"
complist, orglist = [], []
fileA = open(filename, "rb")
reader = csv.reader(fileA, delimiter=',')
for row in reader:
    for row_str in row:
        complist.append(row_str)
with open("organs.csv", "rb") as fileB:
    reader = csv.reader(fileB, delimiter='\n')
    for row in reader:
        orglist += row
        orglist = [x.lower() for x in orglist]
org = open ("organ_matches.txt", "wb")
org_writer = csv.writer(org)
for s in complist:
    for xs in orglist:
        if xs in s:
            print >> org, xs
org.close()
orgfile = open ("organ_matches.txt" , "r")
organ = orgfile.read()
organ = organ.split("\n")
organ = ",".join (organ)
organ = organ.split(",")
orgfile.close()
print organ

csv1:

forearm
leg
abdomen

csv2:

h1,h2,h3,h4
data1,forearm biopsy,tissue,cell
data2,leg injury,tissue in leg,cell9
data4,data,tissue4,cell6

现在可以打印:

['forearm','leg','leg']

所需的输出:

['forearm','leg','-']

在这里,我最终使用列表推导 *来存储器官名称,接下来,我在另一个文件的第二行到最后一行循环,使用stop辅助变量一次从两个循环退出(这是您没有做的事情)赶上...)。

代码MkI

organs = [line.strip() for line in file('uno.csv')]
matches = []
for line in [line for line in file('due.csv')][1:]:
    stop = 0
    matches.append('-')
    for item in line.split(','):
        if stop : break
        for organ in organs:
            if organ in item:
                matches[-1] = organ
                stop = 1

print matches

交替服用

在这里,我删除了不起眼的辅助变量,并使用了更棘手,更晦涩但更令人愉快的方法(对我来说...)

organs = [line.strip() for line in file('uno.csv')]

matches = []
for line in [line for line in file('due.csv')][1:]:
    match = '-'
    for item in line.split(','):
        if match != '-' : break
        for organ in organs:
            if organ in item:
                match = organ
    matches.append(match)

print matches

输出

['forearm', 'leg', '-']

* 编辑 organs的顺序似乎对您很重要,因此我将用于存储器官名称的数据结构从一组更改为一个列表。


编辑#2

更确切地说

从OP可以清楚地看到,对于due.csv每一行,只需要一个匹配项即可。 我不知道(回想起来)如何只选择一场比赛。

我认为,我们要扫描的item S IN各line从左至右和停止扫描,当我们找到一个匹配,到目前为止好......但如果一个item不止一个匹配的organ

我当前的代码总是在organs上完成for循环,因此附加的匹配项是uno.csv定义的顺序中的最后一个匹配uno.csv ...

如果所请求的匹配是第一个,则必须修改我的代码fororgans上的for循环中添加一个break

        for organ in organs:
            if organ in item:
                match = organ
                break

就是说,选择是你的...

以下代码通常可以正常工作,而忽略csv2的标题行:

import csv
orglist = []
organ_matches = []

# Generate list of organs
with open('organs.csv', 'rb') as f_org:

    csv_f = csv.reader(f_org)

    for row in csv_f:
        orglist.append(row[0])

# Convert to a set
set_org = set(orglist)

# Read csv2 file
with open('file.csv', 'rb') as f_tbl:

    # Open output file to write to
    with open('organ_matches.txt', 'wb') as f_out:

        csv_f = csv.reader(f_tbl)
        csv_f.next() # Ignore header

        for row in csv_f:

            set_row = set(' '.join(row).split(' ')) # Combine list elements and separate words

            # Find common words with organs list and select only one
            if set_row.intersection(set_org):
                organ_match = list(set_row.intersection(set_org))[0]
            else:
                organ_match = '-'

            organ_matches.append(organ_match)
            f_out.write(organ_match + '\n')

您只需对数据文件(complist)进行一次循环,即可删除多余的嵌套循环。

这样您:

 for s in complist: for xs in orglist: if xs in s: print >> org, xs 

变成:

 for s in complist: if s in orglist: print >> org, s else: print >> org, '-' 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM