簡體   English   中英

從 csv 文件中刪除重復項並將它們寫入新的 csv 列表?

[英]Remove dulicates from a csv file and write them into a new csv list?

目標:

我有一個CSV文件,在第一列中填充了名稱,但其中有很多duplicates 這些重復是完整的副本,我不知道如何刪除它們。 我查看了stackoverflow的舊問題,但沒有找到有效的解決方案。

我想擺脫重復。

方法:

編寫一個 python 腳本從一個 csv 文件中刪除重復項並將其保存在一個新的 csv 文件中。

技術規格:

具有 10000 個名稱的 Windows 10 Pro 64 位 Python 版本 3.9 CSV 文件

我的代碼不起作用:

# clean duplicates
content=open('namelist.csv','r', encoding="utf8", errors="ignore").readlines()
content_set=set(content)
cleandata=open('noduplicateslist.csv','w')    
for line in content_set:  
    cleandata.write(line)

有人有想法嗎?

我收到此錯誤消息:

“charmap”編解碼器無法對位置 12-27 中的字符進行編碼:字符映射到

最后,我為我的問題找到了這個解決方案:

import pandas as pd

# clean duplicates
df = pd.read_csv('alldata.csv')
df.drop_duplicates(inplace=True)
df.to_csv('cleandata.csv', index=False)

Pandas 讓它變得更容易。

謝謝大家。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM