[英]Unable to delete the duplicates in CSV
“我在 csv 中有一个数据集,它有一个字段名称 Episode ,我们将在其中为我们拥有的未来体育赛事获取数据”“”同一日期的印度 VS 巴基斯坦和巴基斯坦 VS 印度是否有删除重复项的选项
提前致谢
您可以使用的一个想法是 pandas 排名方法,按所需的列分组
df["RANK"] = df.groupby("Column_1")["Column_2"].rank(method="first", ascending=True)
这应该通过分组返回 dataframe,所以三行骗子应该分别排名 1,2 和 3。 从那里,您可以获取 dataframe 的子集,其中rank=1
,这将为您提供 dataframe 没有欺骗。
创建一个新的匹配列然后drop_duplicates
# sample df
df = pd.DataFrame({'a': [1,1,1,1,1],
'b': ['Bulldogs at Aztecs', 'Aztecs at Bulldogs', 'Bearcats at Huskies', 'Huskies at Bearcats', 'something else']})
# list comprehension and sort words in string
df['match'] = [' '.join(sorted(x.split())) for x in df['b'].values]
# a b match
# 0 1 Bulldogs at Aztecs Aztecs Bulldogs at
# 1 1 Aztecs at Bulldogs Aztecs Bulldogs at
# 2 1 Bearcats at Huskies Bearcats Huskies at
# 3 1 Huskies at Bearcats Bearcats Huskies at
# 4 1 something else else something
# drop_duplicates
df.drop_duplicates(['a', 'match'], keep='first').drop(columns='match')
# a b
# 0 1 Bulldogs at Aztecs
# 2 1 Bearcats at Huskies
# 4 1 something else
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.