如何比較python3中的兩個csv文件？

Question

我想將file1.csv列A與file2.csv列B和file1.csv列B與file2.csv列c以及file1.csv列c與file2.csv列A進行比較

import pandas as pd
df = pd.read_csv('table.csv', delimiter=',')
list1 = [list(row) for row in df.values]
#print(list_of_rows)

df1 = pd.read_csv('output_csv_file.csv', delimiter=',')
list2 = [list(row) for row in df1.values]
#print(list_of_rows1,"********************8")

new_items = []
for item in list2:
   if not any(x[1] == item[1] for x in list1):
       if not any(x[2] != item[2] for x in list1):       
           new_items.append(item)

我添加的示例輸入文件和預期輸出文件請指導我

file1                                                       

col_A    clo_B                    clo_C          col_D            

12345    2020-09-08 09:10:20      10.100.90.89   15



file2                                                       

col_A               clo_B          clo_C                      col_D   col_E    col_F     

10.100.90.89        21301          2020-09-08 09:10:20         15      1       6

10.100.90.89        12345          2020-09-08 09:10:20         15      1       6

10.100.90.89        12345          2020-06-08 09:10:20         15      1       6

Output:

col_A               clo_B          clo_C                      col_D   col_E    col_F     

10.100.90.89        21301          2020-09-08 09:10:20         15      1       6

10.100.90.89        12345          2020-06-08 09:10:20         15      1       6

Answer 1

如果您有數據框：

list1 = [
    ['12345', '2020-09-08 09:10:20', '10.100.90.89', '15']
]

list2 = [
    ['10.100.90.89','21301','2020-09-08 09:10:20','15','1','6'],
    ['10.100.90.89','12345','2020-09-08 09:10:20','15','1','6'],
    ['10.100.90.89','12345','2020-06-08 09:10:20','15','1','6'],
]

df1 = pd.DataFrame(list1, columns=['col_A','col_B','col_C','col_D'])
df2 = pd.DataFrame(list2, columns=['col_A','col_B','col_C','col_D','col_E','col_F'])

print(df1)
print(df2)

   col_A                col_B         col_C col_D
0  12345  2020-09-08 09:10:20  10.100.90.89    15
          col_A  col_B                col_C col_D col_E col_F
0  10.100.90.89  21301  2020-09-08 09:10:20    15     1     6
1  10.100.90.89  12345  2020-09-08 09:10:20    15     1     6
2  10.100.90.89  12345  2020-06-08 09:10:20    15     1     6

然后：

tmp = pd.DataFrame(df1[['col_C', 'col_A', 'col_B', 'col_D']])
tmp.columns = ['col_A','col_B','col_C','col_D']

out = df2.merge(tmp, on=['col_A', 'col_B', 'col_C', 'col_D'], how='left', indicator=True)
out = out[out['_merge'] == 'left_only'].drop(columns='_merge')
print(out)

將刪除重復項：

          col_A  col_B                col_C col_D col_E col_F
0  10.100.90.89  21301  2020-09-08 09:10:20    15     1     6
2  10.100.90.89  12345  2020-06-08 09:10:20    15     1     6

如何比較python3中的兩個csv文件？

問題描述

1 個解決方案

解決方案1
0 2020-10-07 12:34:12

如何比較python3中的兩個csv文件？

問題描述

1 個解決方案

解決方案1 0 2020-10-07 12:34:12

解決方案1
0 2020-10-07 12:34:12