![](/img/trans.png)
[英]How to find the id which has multiple matchings from Kaggle Football data
[英]How to find the id which has multiple matchings?
給定CSV文件(實際上是Kaggle足球數據的數據集)。 如何找出不是一對一匹配的“ player_fifa_api_id”和“ player_api_id”。
player_att.player_fifa_api_id.nunique()
11062
player_att.player_api_id.nunique()
11060
上面顯示兩個是不一樣的。
import numpy as np
import pandas as pd
player_att = pd.read_csv('Player_Attributes.csv',sep = ',')
player_att.head()
部分數據顯示如下:
player_fifa_api_id player_api_id
218353 505942
218353 505942
218353 505942
218353 505942
189615 155782
189615 155782
grouped = player_att.groupby('player_fifa_api_id').count()
即使我對數據進行了分組,它也顯示大多數player_fifa_api_id具有多個匹配。
player_api_id player_fifa_api_id
2625 14
2752 17
2768 17
示例數據顯示重復項,但是,某些player_api_id
具有多個player_fifa_api_id
。 誰能告訴我如何找到答案?
例如,如果您只需要獲取具有多個對應的player_fifa_api_id的player_api_id,則可以簡單地按player_api_id分組,然后獲取所有count()> 1的player_api_id。請參見下面的代碼:
grouped_matches = player_att.groupby('player_api_id').count().reset_index()
non_unique_matches = grouped_matches.loc[grouped_matches['player_fifa_api_id']>1]['player_api_id']
上面的代碼將輸出具有多個player_fifa_api_id的player_api_id列表。 您可以對player_fifa_api_id執行相同的操作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.