[英]How to drop duplicates columns from a pandas dataframe, based on columns' values (columns don't have the same name)?
[英]Pandas dataframe - duplicates in data but dups don't reside in same columns
我有一個 df ,其中聚合有重復的行,但采用這種形式:
timestamp animal_1 animal_2
2020-06-28 14:28:57 dog fox
2020-06-28 14:28:57 fox dog
2020-06-29 18:28:57 dog fox
2020-06-29 18:28:57 fox dog
2020-06-30 17:35:57 dog fox
2020-06-30 17:35:57 fox dog
我只想保留具有唯一時間戳的行,后跟兩種動物的單一組合。 從上面的 df 我只想返回以下內容:
timestamp animal_1 animal_2
2020-06-28 14:28:57 dog fox
2020-06-29 18:28:57 fox dog
2020-06-30 17:35:57 dog fox
重要的是我返回了這 2 只動物互動的次數。
我曾嘗試使用 pandas 進行多種排序、分組選項,但沒有運氣。
首先我們需要對列動物進行排序, drop_duplicates
df[['animal_1', 'animal_2']]=np.sort(df[['animal_1', 'animal_2']].values, axis=1)
df=df.drop_duplicates()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.