在包含排序組的pandas數據框中創建一個計算列

Question

假設有一個熊貓數據框，其中包含一些已排序的分組數據的行（給定名稱的所有值的組都彼此相鄰出現），我們想引入一個新的計算列，該列根據某些列的值。 如果第一個值是零，則組中的所有值都將獲得第一個非零值或nan（如果沒有該值）。 否則，如果第一個值不為零，則分配一個固定值，例如-1 。

輸入數據幀示例：

   name    value
0     a        0
1     a        0
2     a        6
3     a        8
4     b        0
5     b        0
6     c        5
7     c        7

創建了calc列的示例輸出數據框。

   name    value    calc
0     a        0       6
1     a        0       6      
2     a        6       6
3     a        8       6
4     b        0     nan
5     b        0     nan
6     c        5      -1
7     c        7      -1

我正在考慮的方法是創建每個組的第一個非零值的查找表，因此對於上面的示例將是：

      value
 a        6
 c        5

然后迭代輸入數據幀並按照上面的邏輯構造值列表，然后將其分配給新列。

Answer 1

為了獲得更好的性能，最好不要使用groupby ，最好是創建最終的字典和map ：

#get all names with 0
contains_zeros = df.loc[df['value'] == 0, 'name'].unique()
print (contains_zeros)
['a' 'b']

#get first non zero values only names with 0
s = df[df['name'].isin(contains_zeros) & (df['value'] != 0)].drop_duplicates('name')
print (s)
  name  value
2    a      6

#first non zero dictionary
d1 = s.set_index('name')['value'].to_dict()
print (d1)
{'a': 6}

#dictionary with all 0 in name
d2 = dict.fromkeys(set(contains_zeros) - set(s['name']), np.nan)
print (d2)
{'b': nan}

#all dictionary without 0
d3 = dict.fromkeys(set(df['name'].unique()) - set(contains_zeros), -1)
print (d3)
{'c': -1}

#merge all together
#https://stackoverflow.com/q/38987
d =  {**d1, **d2, **d3}
print (d)
{'a': 6, 'b': nan, 'c': -1}

df['calc'] = df['name'].map(d)
print (df)
  name  value  calc
0    a      0   6.0
1    a      0   6.0
2    a      6   6.0
3    a      8   6.0
4    b      0   NaN
5    b      0   NaN
6    c      5  -1.0
7    c      7  -1.0

groupby另一個較慢的解決方案：

def f(x):
    if (x== 0).all():
        return np.nan
    elif (x == 0).any():
        return x[x != 0].iloc[0]
    else:
        return -1


df['calc'] = df.groupby('name')['value'].transform(f)
print (df)

  name  value  calc
0    a      0   6.0
1    a      0   6.0
2    a      6   6.0
3    a      8   6.0
4    b      0   NaN
5    b      0   NaN
6    c      5  -1.0
7    c      7  -1.0

Answer 2

這是使用groupby.transform一種方法。 函數return_val的替代項直接反映您指定的3個條件，並且可以輕松擴展到其他條件。

def return_val(x):
    vals = x.values
    if 0 not in vals:
        return -1
    else:
        return next((i for i in vals if i!=0), np.nan)

df['calc'] = df.groupby('name')['value'].transform(return_val)

print(df)

  name  value  calc
0    a      0   6.0
1    a      0   6.0
2    a      6   6.0
3    a      8   6.0
4    b      0   NaN
5    b      0   NaN
6    c      5  -1.0
7    c      7  -1.0

在包含排序組的pandas數據框中創建一個計算列

問題描述

2 個解決方案

解決方案1
1 已采納 2018-05-25 10:48:22

解決方案2
1 2018-05-25 10:48:44

在包含排序組的pandas數據框中創建一個計算列

問題描述

2 個解決方案

解決方案1 1 已采納 2018-05-25 10:48:22

解決方案2 1 2018-05-25 10:48:44

解決方案1
1 已采納 2018-05-25 10:48:22

解決方案2
1 2018-05-25 10:48:44