在Pandas Dataframe中創建高級分組依據列

Question

我在DataFrame中有一個星系組的目錄， 'compact' ，主要包括

群組ID（ 'CG' ，int），
大小（ 'R' ，負浮點）
和形態（ 'Morph' ，字符串，例如“ S”或“ E”）。

我正在嘗試使用組的以下屬性構造第二個pandas DataFrame：

組中具有最低'R'的對象的'Morph'
組中第二低和最低'R'之間的差異
組中最低的'R'與組中'R'之間的差，定義為-2.5*log10(sum(10**(-0.4*R)))
組中具有給定'Morph' （例如，“ S”的列，例如其他形態的一個）的對象的比例，而不是具有最低'R'的對象的比例。

我在最后一個方面遇到麻煩，您能幫我寫嗎？ 其他的都可以，但是，作為第二個問題，我想知道是干凈的還是更好的方法。

這是我的代碼（最后一行的一行有效，但沒有給出我想要的內容，而嘗試輸入注釋無效）：

GroupBy = compact.sort_values('R').groupby('CG', as_index=False)
R2 = GroupBy.head(2).groupby('CG', as_index=False).last().R
R1 = GroupBy.first().sort_values('CG').R
DeltaR12 =  R2 - R1 
MorphCen = GroupBy.first().sort_values('CG').Morph
Group = GroupBy.first().sort_values('CG').CG
RGroup = GroupBy.apply(lambda x: -2.5*np.log10((10**(-0.4*x.R)).sum()))
DeltaR1gr = R1 - RGroup


# Works, but counts the object with lowest R:
PropS = GroupBy.apply(lambda x: 1.0*x.loc[x['Morph'] == 'S'].shape[0]/x.shape[0])   
# Tries to let aside lowest R, but doesn't work:
# PropS = GroupBy.apply(lambda x: 1.0*x.loc[x['Morph'] == 'S' & 
#                        x['R']>x['R'].min()].shape[0]/x.shape[0])

# PropRed = same than PropS, but for 'Morph' != 'S'

CompactML = pd.DataFrame([Group,MorphCen,DeltaR12,DeltaR1gr]).transpose()
CompactML.columns = ['CG', 'MorphCen', 'DeltaR12','DeltaR1gr']

Answer 1

首先，如果您提供實際數據或創建一些虛假數據，它會很好。 下面，我用5個不同的整數CG組，2種形態（S和E）以及'R'的隨機負數創建了一些假數據。

然后，我已在一個自定義函數中重做了所有聚合，該函數在一行中計算4個返回聚合的每一個，並將結果作為Series發送回，將每個輸出作為行添加到原始DataFrame中。

#create fake data
df = pd.DataFrame({'CG':np.random.randint(0, 5, 100), 'Morph':np.random.choice(['S', 'E'], 100), 'R':np.random.rand(100) * -100})
print(df.head())

   CG Morph          R
0   3     E -72.377887
1   2     E -26.126565
2   0     E  -4.428494
3   0     E  -2.055434
4   4     E -93.341489

# define custom aggregation function
def my_agg(x):
    x = x.sort_values('R')
    morph = x.head(1)['Morph'].values[0]
    diff = x.iloc[0]['R'] - x.iloc[1]['R']
    diff2 = -2.5*np.log10(sum(10**(-0.4*x['R'])))
    prop = (x['Morph'].iloc[1:] == 'S').mean()
    return pd.Series([morph, diff, diff2, prop], index=['morph', 'diff', 'diff2', 'prop'])

# apply custom agg function
df.groupby('CG').apply(my_agg)

   morph       diff      diff2      prop
CG                                      
0      E  -1.562630 -97.676934  0.555556
1      S  -3.228845 -98.398337  0.391304
2      S  -6.537937 -91.092164  0.307692
3      E  -0.023813 -99.919336  0.500000
4      E -11.943842 -99.815734  0.705882

Answer 2

因此，這是最終代碼，這要感謝Ted Pertou ：

# define custom aggregation function
def my_agg(x):
    x = x.sort_values('R')
    morph = x.head(1)['Morph'].values[0]
    diff = x.iloc[1]['R'] - x.iloc[0]['R']
    diff2 =  x.iloc[0]['R'] + 2.5*np.log10(sum(10**(-0.4*x['R'])))
    prop = (x['Morph'].iloc[1:] == 'S').mean()
    return pd.Series([morph, diff, diff2, prop], index=['MorphCen', 'DeltaR12', 'DeltaRGrp1', 'PropS'])

# apply custom agg function
compact.groupby('CG').apply(my_agg)

在Pandas Dataframe中創建高級分組依據列

問題描述

2 個解決方案

解決方案1
2 已采納 2017-01-15 19:21:23

解決方案2
0 2017-01-15 21:59:54

在Pandas Dataframe中創建高級分組依據列

問題描述

2 個解決方案

解決方案1 2 已采納 2017-01-15 19:21:23

解決方案2 0 2017-01-15 21:59:54

解決方案1
2 已采納 2017-01-15 19:21:23

解決方案2
0 2017-01-15 21:59:54