使用 pandas 識別兩列之間的關系

Question

我在 dataframe 中有兩列如下，即字母和數字

我想做以下

在上表中，字母 A 在“字母”列中重復了兩次，我想在新列中將其歸類為“一對多”。
15 在我想歸類為“多對一”的數字列中重復兩次。
字母 B、C 和數字 5、6 在每列中僅出現一次，因此應歸類為一對一。
對於其他應歸類為多對多。

預期的 output 如下所示。

我嘗試通過移動列名來使用groupby function，它有助於分別識別項目 1 和項目 2。

我想在單個 function 中做，請幫助.....

Answer 1

你可以這樣寫一個 function ：

import pandas as pd

letter = ['A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'F', 'G']
number = [10,11,5,6,15,15,20,20,25,28]
data = {'letter': letter, 'number': number}    
df = pd.DataFrame(data)

def relationship(letter, number):
    number_of_letters = {}
    number_of_numbers = {}
    relationship = [] 

    for i in letter:
        if i in number_of_letters:
            number_of_letters[i] += 1
        else:
            number_of_letters[i] = 1    
    for i in number:
        if i in number_of_numbers:
            number_of_numbers[i] += 1
        else:
            number_of_numbers[i] = 1    
    for i in range(len(letter)):
        if number_of_letters[letter[i]] == 1 and number_of_numbers[number[i]] == 1:
            relationship.append('One to One')
        elif number_of_letters[letter[i]] > 1 and number_of_numbers[number[i]] == 1:
            relationship.append('One to Many')
        elif number_of_letters[letter[i]] == 1 and number_of_numbers[number[i]] > 1:
            relationship.append('Many to One') 
        elif number_of_letters[letter[i]] > 1 and number_of_numbers[number[i]] > 1:
            relationship.append('Many to Many') 

    return relationship 

df['relationship'] = relationship(letter, number)

Answer 2

這可能是您的解決方案


import pandas as pd

d1 = ['A','A','B','C','D','E','F','G','F','G']
d2 = [10,11,5,6,15,15,20,20,25,28]

df = pd.DataFrame(list(zip(d1,d2)), columns = ['col1', 'col2'])


df['one to one'] = (df.groupby('col2')['col1'].transform(lambda x:x.nunique()==1) & df.groupby('col1')['col2'].transform(lambda x:x.nunique()==1))


df['many to one'] = (df.groupby('col2')['col1'].transform(lambda x:x.nunique()>1) & df.groupby('col1')['col2'].transform(lambda x:x.nunique()==1))


df['one to many'] = (df.groupby('col1')['col2'].transform(lambda x:x.nunique()>1) & df.groupby('col2')['col1'].transform(lambda x:x.nunique()==1))



df['many to many'] = (df.groupby('col1')['col2'].transform(lambda x:x.nunique()>1) & df.groupby('col2')['col1'].transform(lambda x:x.nunique()>1))


import numpy as np

conditions = [
    (df['one to one'] == True), (df['one to many'] == True),(df['many to one'] == True),(df['many to many'] == True)]
choices = ['one to one', 'one to many', 'many to one','many to many']
df['relation'] = np.select(conditions, choices)


df.drop(['one to one', 'one to many', 'many to one','many to many'], axis = 1)

使用 pandas 識別兩列之間的關系

問題描述

2 個解決方案

解決方案1
1 已采納 2020-06-23 06:02:01

解決方案2
1 2020-06-23 06:06:05

使用 pandas 識別兩列之間的關系

問題描述

2 個解決方案

解決方案1 1 已采納 2020-06-23 06:02:01

解決方案2 1 2020-06-23 06:06:05

解決方案1
1 已采納 2020-06-23 06:02:01

解決方案2
1 2020-06-23 06:06:05