在csv文件中搜索特定的标头

Question

我想在python中读取一个csv文件并获取所有标头，然后搜索不同的csv文件以检查它们是否具有第一个csv文件没有的其他标头。

我目前有一个合并csv文件的程序，但是我需要处理其中一个文件是否具有额外（或多个额外）标头的问题。

import glob, os
import pandas as pd

file_list = glob.glob("*.csv")
pd_list = []

for file in file_list:
    pd_list.append(pd.read_csv(file))

combined = pd.concat(pd_list)
final = combined.drop_duplicates()

if not os.path.exists('output'):
    os.makedirs('output')

final.to_csv("output/final.csv", index=False)

Answer 1

如果用“标题”来表示字符串列表，那么我相信您可以使用集合：

A = set(['red', 'blue', 'green', 'white'])
B = set(['red', 'blue', 'green', 'white', 'purple'])

if A.issubset(B):
    if B.difference(A):
        print('B has extra headers')
    else:
        print('B does not have extra headers')
else:
    print('B is missing headers')

“ B有多余的标题”

Answer 2

使用`pandas`可以用更少的代码完成同样的事情：

数据：

csv1：

CustomerID,Gender,Day,SaleAmount
18,Male,Monday,71.55
24,Female,Monday,219.66
112,Male,Friday,150.44

CSV2：

CustomerID,Gender,Day,SaleAmount
18,Male,Monday,71.55
24,Female,Monday,219.66
112,Male,Friday,150.44

csv3-注意2个额外的列，其中1也是重复的列：

CustomerID,Gender,SaleAmount,Day,random,Day
18,Male,71.55,Monday,test1,Monday
24,Female,219.66,Monday,test2,Wednesday
112,Male,150.44,Friday,test3,Friday

使用`pathlib`而不是`os` ＆ `glob` ：

pathlib是标准库的一部分，应代替os 。
Python 3的pathlib模块：驯服文件系统

码：

from pathlib import Path

p = Path.cwd() / 'csv_files'
f = p.rglob('*.csv')

df = pd.concat([pd.read_csv(x) for x in f], sort=False)

df.reset_index(inplace=True, drop=True)
df.to_csv('test.csv', index=False)

添加多余的列并用不存在的NaN填充
重复的Day是Day.1

在csv文件中搜索特定的标头

问题描述

2 个解决方案

解决方案1
1 2019-09-01 02:38:03

解决方案2
0 2019-09-01 03:25:49

使用`pandas`可以用更少的代码完成同样的事情：

数据：

csv1：

CSV2：

csv3-注意2个额外的列，其中1也是重复的列：

使用`pathlib`而不是`os` ＆ `glob` ：

码：

在csv文件中搜索特定的标头

问题描述

2 个解决方案

解决方案1 1 2019-09-01 02:38:03

解决方案2 0 2019-09-01 03:25:49

使用pandas可以用更少的代码完成同样的事情：

数据：

csv1：

CSV2：

csv3-注意2个额外的列，其中1也是重复的列：

使用pathlib而不是os ＆ glob ：

码：

解决方案1
1 2019-09-01 02:38:03

解决方案2
0 2019-09-01 03:25:49

使用`pandas`可以用更少的代码完成同样的事情：

使用`pathlib`而不是`os` ＆ `glob` ：