Pandas append() 並刪除重復項會弄亂索引

Question

我正在從籃球網站上抓取一些數據，計划是在添加新數據時自動更新它。

我得到數據

stats = pd.read_html('URL', header=[0, 1])
player_stats = stats[4]

player_stats.to_csv('stats.csv')

Append 它

with open('stats.csv', 'a') as f:
    player_stats.to_csv(f, header=False)

刪除重復項（方法 1）

old_data = pd.read_csv('stats.csv')
data = old_data.drop_duplicates(subset='Unnamed: 1_level_0', keep='last')
data.to_csv('stats.csv')

刪除重復項（方法 2）

old_data = pd.read_csv('stats.csv')
bool_series = data["Unnamed: 1_level_0"].duplicated(keep='last') 
bool_series 
data = data[~bool_series] 
data.to_csv('stats.csv')

我面臨的問題是，在原始數據附加新數據后，刪除重復方法會弄亂文件的結構，從而使將來無法附加和刪除重復項，因為不再能夠識別重復項...

為什么要添加新索引，我該如何解決？

Answer 1

不要將數據直接附加到文件中，而是使用Panda 的 function concat() 。 注意參數軸。

Pandas append() 並刪除重復項會弄亂索引

問題描述

1 個解決方案

解決方案1
0 已采納 2019-11-13 11:50:57

Pandas append() 並刪除重復項會弄亂索引

問題描述

1 個解決方案

解決方案1 0 已采納 2019-11-13 11:50:57

解決方案1
0 已采納 2019-11-13 11:50:57