在 CSV 中搜索不区分大小写的重复项？

Question

我有一个看起来像这样的 csv：

文件.csv

name,apptype
AppABC,python
appabc,python
AppABB,python
AppABA,python
Appaba,python

我需要找出一种方法来确定是否存在任何“名称”作为不区分大小写的副本并报告结果。

在这种情况下，我应该知道以下是重复的：

AppABC,python
appabc,python
AppABA,python
Appaba,python

这是我正在尝试的，但它不起作用。

with open(appcsv_path) as csv_file:
csv_reader = csv.reader(csv_file, delimiter=',')

for name in csv_reader:
    re.findall(name, csv_reader, flags=re.IGNORECASE)

这会导致错误：

TypeError: unhashable type: 'list'

使用下面的 Pandas 方法，但将其编辑为“名称”而不是“名称”：

    df = pd.read_csv(appcsv_path)
out = df[df.Name.str.strip().str.lower().duplicated(keep=False)].loc[0:0]
print(out.to_string(index=False))

结果是：

Empty DataFrame
Columns: [Name, Type]
Index: []

Answer 1

这是使用duplicated的 pandas 解决方案

import pandas as pd
df = pd.read_csv(appcsv_path)
out = df[df.name.str.strip().str.lower().duplicated(keep=False)].loc[:,'name']

Output：

这将为您提供预期的 output

print(out.to_string(index=False))

AppABC
appabc
AppABA
Appaba

或者保留你可以做的两列

out = df[df.name.str.strip().str.lower().duplicated(keep=False)]
print(out.to_string(index=False))

这给了你

  name apptype
AppABC  python
appabc  python
AppABA  python
Appaba  python

在 CSV 中搜索不区分大小写的重复项？

问题描述

1 个解决方案

解决方案1
1 已采纳 2022-08-05 15:43:07

Output：

在 CSV 中搜索不区分大小写的重复项？

问题描述

1 个解决方案

解决方案1 1 已采纳 2022-08-05 15:43:07

Output：

解决方案1
1 已采纳 2022-08-05 15:43:07