无法删除 CSV 中的重复项

Question

“我在 csv 中有一个数据集，它有一个字段名称 Episode ，我们将在其中为我们拥有的未来体育赛事获取数据”“”同一日期的印度 VS 巴基斯坦和巴基斯坦 VS 印度是否有删除重复项的选项

提前致谢

在此处输入图像描述

Answer 1

您可以使用的一个想法是 pandas 排名方法，按所需的列分组

df["RANK"] = df.groupby("Column_1")["Column_2"].rank(method="first", ascending=True)

这应该通过分组返回 dataframe，所以三行骗子应该分别排名 1,2 和 3。 从那里，您可以获取 dataframe 的子集，其中rank=1 ，这将为您提供 dataframe 没有欺骗。

Answer 2

创建一个新的匹配列然后drop_duplicates

# sample df
df = pd.DataFrame({'a': [1,1,1,1,1],
                   'b': ['Bulldogs at Aztecs', 'Aztecs at Bulldogs', 'Bearcats at Huskies', 'Huskies at Bearcats', 'something else']})

# list comprehension and sort words in string 
df['match'] = [' '.join(sorted(x.split())) for x in df['b'].values]

#    a                    b                match
# 0  1   Bulldogs at Aztecs   Aztecs Bulldogs at
# 1  1   Aztecs at Bulldogs   Aztecs Bulldogs at
# 2  1  Bearcats at Huskies  Bearcats Huskies at
# 3  1  Huskies at Bearcats  Bearcats Huskies at
# 4  1       something else       else something

# drop_duplicates
df.drop_duplicates(['a', 'match'], keep='first').drop(columns='match')

#    a                    b
# 0  1   Bulldogs at Aztecs
# 2  1  Bearcats at Huskies
# 4  1       something else

无法删除 CSV 中的重复项

问题描述

2 个解决方案

解决方案1
1 2019-11-15 20:19:41

解决方案2
0 已采纳 2019-11-15 21:10:52

无法删除 CSV 中的重复项

问题描述

2 个解决方案

解决方案1 1 2019-11-15 20:19:41

解决方案2 0 已采纳 2019-11-15 21:10:52

解决方案1
1 2019-11-15 20:19:41

解决方案2
0 已采纳 2019-11-15 21:10:52