[英]Pandas: Create a new column in a data frame with values calculated from an already existing column, i. calculate maximum
[英]Create a calculated column in pandas data frame containing sorted groups
假設有一個熊貓數據框,其中包含一些已排序的分組數據的行(給定名稱的所有值的組都彼此相鄰出現),我們想引入一個新的計算列,該列根據某些列的值。 如果第一個值是零,則組中的所有值都將獲得第一個非零值或nan(如果沒有該值)。 否則,如果第一個值不為零,則分配一個固定值,例如-1
。
輸入數據幀示例:
name value
0 a 0
1 a 0
2 a 6
3 a 8
4 b 0
5 b 0
6 c 5
7 c 7
創建了calc
列的示例輸出數據框。
name value calc
0 a 0 6
1 a 0 6
2 a 6 6
3 a 8 6
4 b 0 nan
5 b 0 nan
6 c 5 -1
7 c 7 -1
我正在考慮的方法是創建每個組的第一個非零值的查找表,因此對於上面的示例將是:
value
a 6
c 5
然后迭代輸入數據幀並按照上面的邏輯構造值列表,然后將其分配給新列。
為了獲得更好的性能,最好不要使用groupby
,最好是創建最終的字典和map
:
#get all names with 0
contains_zeros = df.loc[df['value'] == 0, 'name'].unique()
print (contains_zeros)
['a' 'b']
#get first non zero values only names with 0
s = df[df['name'].isin(contains_zeros) & (df['value'] != 0)].drop_duplicates('name')
print (s)
name value
2 a 6
#first non zero dictionary
d1 = s.set_index('name')['value'].to_dict()
print (d1)
{'a': 6}
#dictionary with all 0 in name
d2 = dict.fromkeys(set(contains_zeros) - set(s['name']), np.nan)
print (d2)
{'b': nan}
#all dictionary without 0
d3 = dict.fromkeys(set(df['name'].unique()) - set(contains_zeros), -1)
print (d3)
{'c': -1}
#merge all together
#https://stackoverflow.com/q/38987
d = {**d1, **d2, **d3}
print (d)
{'a': 6, 'b': nan, 'c': -1}
df['calc'] = df['name'].map(d)
print (df)
name value calc
0 a 0 6.0
1 a 0 6.0
2 a 6 6.0
3 a 8 6.0
4 b 0 NaN
5 b 0 NaN
6 c 5 -1.0
7 c 7 -1.0
groupby
另一個較慢的解決方案:
def f(x):
if (x== 0).all():
return np.nan
elif (x == 0).any():
return x[x != 0].iloc[0]
else:
return -1
df['calc'] = df.groupby('name')['value'].transform(f)
print (df)
name value calc
0 a 0 6.0
1 a 0 6.0
2 a 6 6.0
3 a 8 6.0
4 b 0 NaN
5 b 0 NaN
6 c 5 -1.0
7 c 7 -1.0
這是使用groupby.transform
一種方法。 函數return_val
的替代項直接反映您指定的3個條件,並且可以輕松擴展到其他條件。
def return_val(x):
vals = x.values
if 0 not in vals:
return -1
else:
return next((i for i in vals if i!=0), np.nan)
df['calc'] = df.groupby('name')['value'].transform(return_val)
print(df)
name value calc
0 a 0 6.0
1 a 0 6.0
2 a 6 6.0
3 a 8 6.0
4 b 0 NaN
5 b 0 NaN
6 c 5 -1.0
7 c 7 -1.0
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.