比較兩個csv文件

Question

我正在嘗試比較兩個csv文件以在第1列中查找通用值。

import csv

f_d1 = open('test1.csv')
f_d2 = open('test2.csv')

f1_csv = csv.reader(f_d1)
f2_csv = csv.reader(f_d2)

for x,y in zip(f1_csv,f2_csv):
    print(x,y)

我正在嘗試將x [0]與y [0]進行比較。 我對python還是相當陌生，並試圖找到最pythonic的方式來實現結果。 這是csv文件。

test1.csv

Hadrosaurus,1.2
Struthiomimus,0.92
Velociraptor,1.0
Triceratops,0.87
Euoplocephalus,1.6
Stegosaurus,1.4
Tyrannosaurus Rex,2.5

test2.csv

Euoplocephalus,1.87
Stegosaurus,1.9
Tyrannosaurus Rex,5.76
Hadrosaurus,1.4
Deinonychus,1.21
Struthiomimus,1.34
Velociraptor,2.72

Answer 1

我相信您正在尋找設定的交集：

import csv

f_d1 = open('test1.csv')
f_d2 = open('test2.csv')

f1_csv = csv.reader(f_d1)
f2_csv = csv.reader(f_d2)

x = set([item[0] for item in f1_csv])
y = set([item[0] for item in f2_csv])

print(x & y)

Answer 2

我添加了一行以測試每行中的數值是否相同。 您可以修改此值以測試例如值之間是否在一定距離之內：

import csv

f_d1 = open('test1.csv')
f_d2 = open('test2.csv')

f1_csv = csv.reader(f_d1)
f2_csv = csv.reader(f_d2)

for x,y in zip(f1_csv,f2_csv):
    if x[1] == y[1]:
        print('they match!')

Answer 3

利用Python中的defaultdict ，您可以迭代兩個文件並在這樣的字典中維護計數

from collections import defaultdict
d = defaultdict(list)

for row in f1_csv:
    d[row[0]].append(row[1])

for row in f2_csv:
    d[row[0]].append(row[1])

d = {k: d[k] for k in d if len(d[k]) > 1}

print(d)

輸出：

    {'Hadrosaurus': ['1.2', '1.4'], 'Struthiomimus': ['0.92', '1.34'], 'Velociraptor': ['1.0', '2.72'], 
'Euoplocephalus': ['1.6', '1.87'], 'Stegosaurus': ['1.4', '1.9'], 'Tyrannosaurus Rex': ['2.5', '5.76']}

Answer 4

假設文件不是很大，您可以使用CSV閱讀器讀取它們，將第一列轉換為集合，然后計算集合交集：

with open('test1.csv') as f:
   set1 = set(x[0] for x in csv.reader(f))
with open('test2.csv') as f:
   set2 = set(x[0] for x in csv.reader(f))
print(set1 & set2)
#{'Hadrosaurus', 'Euoplocephalus', 'Tyrannosaurus Rex', 'Struthiomimus', 
#  'Velociraptor', 'Stegosaurus'}

比較兩個csv文件

問題描述

4 個解決方案

解決方案1
1 2017-09-04 05:34:02

解決方案2
0 2017-09-04 05:30:16

解決方案3
0 2017-09-04 05:33:09

解決方案4
0 已采納 2017-09-04 05:35:03

比較兩個csv文件

問題描述

4 個解決方案

解決方案1 1 2017-09-04 05:34:02

解決方案2 0 2017-09-04 05:30:16

解決方案3 0 2017-09-04 05:33:09

解決方案4 0 已采納 2017-09-04 05:35:03

解決方案1
1 2017-09-04 05:34:02

解決方案2
0 2017-09-04 05:30:16

解決方案3
0 2017-09-04 05:33:09

解決方案4
0 已采納 2017-09-04 05:35:03