熊貓在第一列合並

Question

我正在嘗試合並的條目中，合並兩個具有重復行的熊貓數據框（此處的行由與“ a”和“ b”相對應的2組成）。 結果，熊貓將重復行的笛卡爾積乘以如下所示：

In [8]: df1 = pd.DataFrame({'a' : [1, 2, 2], 'b' : [2, 2, 2], 'c' : [3, 6, 6]}) 

In [9]: df2 = pd.DataFrame({'a' : [2, 2], 'b' : [2, 2], 'd' : [2, 5]})          

In [10]: df1.merge(df2, how='outer', on=['a', 'b'])                             
Out[10]: 
   a  b  c    d
0  1  2  3  NaN
1  2  2  6  2.0
2  2  2  6  5.0
3  2  2  6  2.0
4  2  2  6  5.0

我想要的結果是，每個重復行之間僅按它們出現的順序進行一次合並（在這種情況下，數字通過索引）。 所以我想要的輸出是：

In [12]: df_output = pd.DataFrame({'a' : [1, 2, 2], 'b' : [2, 2, 2], 'c' : [3, 6
    ...: , 6], 'd' : [np.nan, 2, 5]})                                           

In [13]: df_output                                                              
Out[13]: 
   a  b  c    d
0  1  2  3  NaN
1  2  2  6  2.0
2  2  2  6  5.0

我該怎么做？

Answer 1

您需要按GroupBy.cumcount創建的計數器創建幫助列：

df1 = pd.DataFrame({'a' : [1, 2, 2], 'b' : [2, 2, 2], 'c' : [3, 6, 6]}) 
df2 = pd.DataFrame({'a' : [2, 2], 'b' : [2, 2], 'd' : [2, 5]})    

df1['g'] = df1.groupby(['a', 'b']).cumcount()
df2['g'] = df2.groupby(['a', 'b']).cumcount()

df = df1.merge(df2, how='outer', on=['a', 'b', 'g'])  
print (df)
   a  b  c  g    d
0  1  2  3  0  NaN
1  2  2  6  0  2.0
2  2  2  6  1  5.0

最后刪除g列：

df = df1.merge(df2, how='outer', on=['a', 'b', 'g']).drop('g', axis=1)  
print (df)
   a  b  c    d
0  1  2  3  NaN
1  2  2  6  2.0
2  2  2  6  5.0

Answer 2

drop_duplicates不能解決您的問題嗎？

df = df1.merge(df2, how='outer', on=['a', 'b'])
df = df.drop_duplicates()

Answer 3

我認為就足夠了

df1.merge(df2, how = 'outer').drop_duplicates()

熊貓在第一列合並

問題描述

3 個解決方案

解決方案1
0 2019-03-11 07:02:39

解決方案2
0 2019-03-11 08:55:27

解決方案3
0 2019-03-11 13:28:08

熊貓在第一列合並

問題描述

3 個解決方案

解決方案1 0 2019-03-11 07:02:39

解決方案2 0 2019-03-11 08:55:27

解決方案3 0 2019-03-11 13:28:08

解決方案1
0 2019-03-11 07:02:39

解決方案2
0 2019-03-11 08:55:27

解決方案3
0 2019-03-11 13:28:08