從 csv 文件中刪除重復項並將它們寫入新的 csv 列表？

Question

目標：

我有一個CSV文件，在第一列中填充了名稱，但其中有很多duplicates 。 這些重復是完整的副本，我不知道如何刪除它們。 我查看了stackoverflow的舊問題，但沒有找到有效的解決方案。

我想擺脫重復。

方法：

編寫一個 python 腳本從一個 csv 文件中刪除重復項並將其保存在一個新的 csv 文件中。

技術規格：

具有 10000 個名稱的 Windows 10 Pro 64 位 Python 版本 3.9 CSV 文件

我的代碼不起作用：

# clean duplicates
content=open('namelist.csv','r', encoding="utf8", errors="ignore").readlines()
content_set=set(content)
cleandata=open('noduplicateslist.csv','w')    
for line in content_set:  
    cleandata.write(line)

有人有想法嗎？

我收到此錯誤消息：

“charmap”編解碼器無法對位置 12-27 中的字符進行編碼：字符映射到

Answer 1

最后，我為我的問題找到了這個解決方案：

import pandas as pd

# clean duplicates
df = pd.read_csv('alldata.csv')
df.drop_duplicates(inplace=True)
df.to_csv('cleandata.csv', index=False)

Pandas 讓它變得更容易。

謝謝大家。

從 csv 文件中刪除重復項並將它們寫入新的 csv 列表？

問題描述

1 個解決方案

解決方案1
0 2021-07-17 15:06:57

從 csv 文件中刪除重復項並將它們寫入新的 csv 列表？

問題描述

1 個解決方案

解決方案1 0 2021-07-17 15:06:57

解決方案1
0 2021-07-17 15:06:57