[英]Pandas append() and remove duplicates messes up the index
我正在從籃球網站上抓取一些數據,計划是在添加新數據時自動更新它。
我得到數據
stats = pd.read_html('URL', header=[0, 1])
player_stats = stats[4]
player_stats.to_csv('stats.csv')
Append 它
with open('stats.csv', 'a') as f:
player_stats.to_csv(f, header=False)
刪除重復項(方法 1)
old_data = pd.read_csv('stats.csv')
data = old_data.drop_duplicates(subset='Unnamed: 1_level_0', keep='last')
data.to_csv('stats.csv')
刪除重復項(方法 2)
old_data = pd.read_csv('stats.csv')
bool_series = data["Unnamed: 1_level_0"].duplicated(keep='last')
bool_series
data = data[~bool_series]
data.to_csv('stats.csv')
我面臨的問題是,在原始數據附加新數據后,刪除重復方法會弄亂文件的結構,從而使將來無法附加和刪除重復項,因為不再能夠識別重復項...
為什么要添加新索引,我該如何解決?
不要將數據直接附加到文件中,而是使用Panda 的 function concat() 。 注意參數軸。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.