簡體   English   中英

Pandas append() 並刪除重復項會弄亂索引

[英]Pandas append() and remove duplicates messes up the index

我正在從籃球網站上抓取一些數據,計划是在添加新數據時自動更新它。

我得到數據

stats = pd.read_html('URL', header=[0, 1])
player_stats = stats[4]

player_stats.to_csv('stats.csv')

Append 它

with open('stats.csv', 'a') as f:
    player_stats.to_csv(f, header=False)

刪除重復項(方法 1)

old_data = pd.read_csv('stats.csv')
data = old_data.drop_duplicates(subset='Unnamed: 1_level_0', keep='last')
data.to_csv('stats.csv')

刪除重復項(方法 2)

old_data = pd.read_csv('stats.csv')
bool_series = data["Unnamed: 1_level_0"].duplicated(keep='last') 
bool_series 
data = data[~bool_series] 
data.to_csv('stats.csv')

我面臨的問題是,在原始數據附加新數據后,刪除重復方法會弄亂文件的結構,從而使將來無法附加和刪除重復項,因為不再能夠識別重復項...

為什么要添加新索引,我該如何解決?

不要將數據直接附加到文件中,而是使用Panda 的 function concat() 注意參數軸。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM