簡體   English   中英

如何找到具有多個匹配項的ID?

[英]How to find the id which has multiple matchings?

給定CSV文件(實際上是Kaggle足球數據的數據集)。 如何找出不是一對一匹配的“ player_fifa_api_id”和“ player_api_id”。

player_att.player_fifa_api_id.nunique()
11062

player_att.player_api_id.nunique()
11060

上面顯示兩個是不一樣的。

import numpy as np
import pandas as pd
player_att = pd.read_csv('Player_Attributes.csv',sep = ',') 
player_att.head()

部分數據顯示如下:

player_fifa_api_id      player_api_id
  218353                       505942
  218353                       505942
  218353                       505942
  218353                       505942
  189615                       155782
  189615                       155782

grouped = player_att.groupby('player_fifa_api_id').count()

即使我對數據進行了分組,它也顯示大多數player_fifa_api_id具有多個匹配。

player_api_id       player_fifa_api_id  

2625                          14
2752                          17
2768                          17

示例數據顯示重復項,但是,某些player_api_id具有多個player_fifa_api_id 誰能告訴我如何找到答案?

例如,如果您只需要獲取具有多個對應的player_fifa_api_id的player_api_id,則可以簡單地按player_api_id分組,然后獲取所有count()> 1的player_api_id。請參見下面的代碼:

grouped_matches = player_att.groupby('player_api_id').count().reset_index()
non_unique_matches = grouped_matches.loc[grouped_matches['player_fifa_api_id']>1]['player_api_id']

上面的代碼將輸出具有多個player_fifa_api_id的player_api_id列表。 您可以對player_fifa_api_id執行相同的操作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM