[英]Remove dulicates from a csv file and write them into a new csv list?
目標:
我有一個CSV
文件,在第一列中填充了名稱,但其中有很多duplicates
。 這些重復是完整的副本,我不知道如何刪除它們。 我查看了stackoverflow的舊問題,但沒有找到有效的解決方案。
我想擺脫重復。
方法:
編寫一個 python 腳本從一個 csv 文件中刪除重復項並將其保存在一個新的 csv 文件中。
技術規格:
具有 10000 個名稱的 Windows 10 Pro 64 位 Python 版本 3.9 CSV 文件
我的代碼不起作用:
# clean duplicates
content=open('namelist.csv','r', encoding="utf8", errors="ignore").readlines()
content_set=set(content)
cleandata=open('noduplicateslist.csv','w')
for line in content_set:
cleandata.write(line)
有人有想法嗎?
我收到此錯誤消息:
“charmap”編解碼器無法對位置 12-27 中的字符進行編碼:字符映射到
最后,我為我的問題找到了這個解決方案:
import pandas as pd
# clean duplicates
df = pd.read_csv('alldata.csv')
df.drop_duplicates(inplace=True)
df.to_csv('cleandata.csv', index=False)
Pandas 讓它變得更容易。
謝謝大家。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.