使用python比较CSV文件中的两列

Question

我有一个CSV文件，例如：

item1,item2 
A,B
B,C
C,D
E,F

我想比较这两列并从两列item1和item2找到相似的内容。 输出应如下所示：

 item 
  B
  C

我已经尝试过此代码

with open('output/id.csv', 'r') as csvfile:
csvreader = csv.reader(csvfile)

for line in csvreader:
    if (line[0] == line[1]):
        print line
    else:
        print("not match")

我是编程新手。 我不知道逻辑应该是什么以及如何解决这个问题。 请帮忙。

Answer 1

我建议您使用pandas库，这会将您的csv文件加载到一个不错的dataframe数据结构中。 真的很方便。

import pandas as pd

df = pd.read_csv(filename)

然后您可以通过执行以下操作获得两列之间的相似性

set(df['col1']) & set(df['col2'])

为了按照您描述的方式调整输出，您可以使用以下交叉信息制作一个新的DataFrame：

df2 = pd.DataFrame(data = {'item': list(set(df['col1']) & set(df['col2']))})

例如，

import pandas as pd
d = {'col1': [1, 2, 6, 4, 3], 'col2': [3, 2, 5, 6, 8]}
df = pd.DataFrame(data=d)
set(df['col1']) & set(df['col2'])

{2，3，6}

Answer 2

你需要：

使用'\\t'作为分隔符，因为文件由制表符而不是逗号分隔
从两个列表中获取所有项作为一个集合，然后获取两个集合的交集
打印它们

这是我的实现：

import csv
with open('output/id.csv', 'r') as csvfile:
    csvreader = csv.reader(csvfile, delimiter='\t')

    items_in_1 = set()
    items_in_2 = set()

    for line in csvreader:
        items_in_1.add(line[0])
        items_in_2.add(line[1])

    items_in_both = items_in_1.intersection(items_in_2)

    print("item")
    for item in items_in_both:
        print(item)

Answer 3

您不能通过逐行阅读来成功。 您必须处理这些列。

将csv文件的两列（不带标题）读入2个python set 。

执行排序的交集并写回另一个csv文件：

import csv

with open("test.csv") as f:
    cr = csv.reader(f)
    next(cr) # skip title
    col1 = set()
    col2 = set()
    for a,b in cr:
        col1.add(a)
        col2.add(b)

with open("output.csv","w",newline="") as f:
    cw = csv.writer(f)
    cw.writerow(["item"])
    cw.writerows(sorted(col1 & col2))

与test.csv作为：

item1,item2
A,B
B,C
C,D
E,F

你得到

item
B
C

注意：如果您的csv文件有两列以上，则说明解压缩无法正常工作，请按以下方式进行调整：

for row in cr:
    col1.add(row[0])
    col2.add(row[1])

使用python比较CSV文件中的两列

问题描述

3 个解决方案

解决方案1
2 2018-04-05 08:31:11

解决方案2
2 已采纳 2018-04-05 08:34:48

解决方案3
1 2018-04-05 08:31:07

使用python比较CSV文件中的两列

问题描述

3 个解决方案

解决方案1 2 2018-04-05 08:31:11

解决方案2 2 已采纳 2018-04-05 08:34:48

解决方案3 1 2018-04-05 08:31:07

解决方案1
2 2018-04-05 08:31:11

解决方案2
2 已采纳 2018-04-05 08:34:48

解决方案3
1 2018-04-05 08:31:07