將兩個數據框合並為一個具有標記為1或0的唯一項的新數據框

Question

我有幾個數據幀。

數據幀＃1

Feature   Coeff
a         0.5
b         0.3
c         0.35
d         0.2

數據幀＃2

Feature   Coeff
a         0.7
b         0.2
y         0.75
x         0.1

我想合並此數據框並獲取以下數據：

Feature |  DF1  |  DF2
a          1       1
b          1       1
c          1       0
d          1       0
y          0       1
x          0       1

我知道我可以進行outer merge但我不知道如何從那里移動以獲得我上面提到的最終數據幀。 有任何想法嗎？

Answer 1

使用concat + get_dummies

u = pd.concat([df1, df2], axis=0, keys=['DF1', 'DF2'])

pd.get_dummies(u.Feature).sum(level=0).T

   DF1  DF2
a    1    1
b    1    1
c    1    0
d    1    0
x    0    1
y    0    1

Answer 2

您可以與series.str.get_dummies()一起使用merge來實現此目的：

m=df1[['Feature']].merge(df2[['Feature']],how='outer',indicator=True)

d={'both':'DF1,DF2','left_only':'DF1','right_only':'DF2'}
m=m.assign(_merge=m._merge.map(d))
m[['Feature']].join(m._merge.str.get_dummies(','))

  Feature  DF1  DF2
0       a    1    1
1       b    1    1
2       c    1    0
3       d    1    0
4       y    0    1
5       x    0    1

Answer 3

與user3483203相同的想法，但使用crosstab

u = pd.concat([df1, df2], axis=0, keys=['DF1', 'DF2'])


pd.crosstab(u.Feature, u.index.get_level_values(0))

Answer 4

我使用pd.merge合並了兩個數據幀，並使用列表pd.merge來分配值。

df = df1.merge(df2, on='Feature', how='outer')
df['DF1'] = [1 if x > 0 else 0 for x in df['Coeff_x']]
df['DF2'] = [1 if x > 0 else 0 for x in df['Coeff_y']]
df.drop(['Coeff_x', 'Coeff_y'], axis=1, inplace=True)

    Feature DF1 DF2
0   a   1   1
1   b   1   1
2   c   1   0
3   d   1   0
4   y   0   1
5   x   0   1

我已經看過其他 - 熊貓特定的 - 答案，我想問一下，如果你可以使用內置的方法/函數實現相同的方法，如series.str.get_dummies()有什么優點？ 它快得多嗎？ 真的好奇，因為我自己是新手。

（對不起，我需要更多的聲望點才能直接在其他答案下留下評論！）

將兩個數據框合並為一個具有標記為1或0的唯一項的新數據框

問題描述

4 個解決方案

解決方案1
11 已采納 2019-06-30 16:14:29

解決方案2
6 2019-06-30 16:12:49

解決方案3
4 2019-06-30 17:08:01

解決方案4
2 2019-06-30 16:46:05

將兩個數據框合並為一個具有標記為1或0的唯一項的新數據框

問題描述

4 個解決方案

解決方案1 11 已采納 2019-06-30 16:14:29

解決方案2 6 2019-06-30 16:12:49

解決方案3 4 2019-06-30 17:08:01

解決方案4 2 2019-06-30 16:46:05

解決方案1
11 已采納 2019-06-30 16:14:29

解決方案2
6 2019-06-30 16:12:49

解決方案3
4 2019-06-30 17:08:01

解決方案4
2 2019-06-30 16:46:05