簡體   English   中英

Pandas dataframe - 數據中有重復,但重復不在同一列中

[英]Pandas dataframe - duplicates in data but dups don't reside in same columns

我有一個 df ,其中聚合有重復的行,但采用這種形式:

timestamp   animal_1  animal_2  
2020-06-28  14:28:57  dog fox    
2020-06-28  14:28:57  fox dog   
2020-06-29  18:28:57  dog fox   
2020-06-29  18:28:57  fox dog   
2020-06-30  17:35:57  dog fox   
2020-06-30  17:35:57  fox dog  

我只想保留具有唯一時間戳的行,后跟兩種動物的單一組合。 從上面的 df 我只想返回以下內容:

timestamp   animal_1  animal_2   
2020-06-28  14:28:57  dog fox    
2020-06-29  18:28:57  fox dog  
2020-06-30  17:35:57  dog fox  

重要的是我返回了這 2 只動物互動的次數。

我曾嘗試使用 pandas 進行多種排序、分組選項,但沒有運氣。

首先我們需要對列動物進行排序, drop_duplicates

df[['animal_1', 'animal_2']]=np.sort(df[['animal_1', 'animal_2']].values, axis=1)
df=df.drop_duplicates()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM