[英]Dealing with None values when using Pandas Groupby and Apply with a Function
我在Pandas
有一个数据Dataframe
,其中有一个字母和两个日期作为列。 我想使用shift()
计算上一行的两个日期列之间的工作日,前提是Letter
值相同(使用.groupby()
)。 我正在使用.apply()
做到这一点。 这一直有效,直到我传递了一些缺少某个日期的数据。 我将所有内容移至一个函数,以使用try/except
子句处理缺少的值,但现在我的函数将为所有内容返回NaN
。 看来日期的None
值会影响函数的每次调用,而我认为只有当.groupby()
的Letter
为A
时,它才会.groupby()
。
import pandas as pd
from datetime import datetime
import numpy as np
def business_days(x):
try:
return pd.DataFrame(np.busday_count(x['First Date'].tolist(), x['Last Date'].tolist())).shift().reset_index(drop=True)
except ValueError:
return None
df = pd.DataFrame(data=[['A', datetime(2016, 1, 7), None],
['A', datetime(2016, 3, 1), datetime(2016, 3, 8)],
['B', datetime(2016, 5, 1), datetime(2016, 5, 10)],
['B', datetime(2016, 6, 5), datetime(2016, 6, 7)]],
columns=['Letter', 'First Date', 'Last Date'])
df['First Date'] = df['First Date'].apply(lambda x: x.to_datetime().date())
df['Last Date'] = df['Last Date'].apply(lambda x: x.to_datetime().date())
df['Gap'] = df.groupby('Letter').apply(business_days)
print df
实际输出:
Letter First Date Last Date Gap
0 A 2016-01-07 NaT NaN
1 A 2016-03-01 2016-03-08 NaN
2 B 2016-05-01 2016-05-10 NaN
3 B 2016-06-05 2016-06-07 NaN
所需输出:
Letter First Day Last Day Gap
0 A 2016-01-07 NAT NAN
1 A 2016-03-01 2016-03-08 NAN
2 B 2016-05-01 2016-05-10 NAN
3 B 2016-06-05 2016-06-07 7
暂时忽略NaT
,请注意,可以在应用groupby
之前对df
整个列进行np.busday_count
计算。 这将节省时间,因为np.busday_count
单个调用np.busday_count
替换了许多对np.busday_count
调用(每个组一个)。 通常,对大型数组进行一个函数调用要比对小型数组进行许多函数调用要快。
要处理NaT
,可以使用pd.notnull
标识具有NaT
的行并屏蔽First Date
和Last Date
以便仅将有效日期发送到np.busday_count
。 然后,您可以为日期为NaT
的行填写NaN
。
在计算完所有工作日计数之后,我们要做的就是按Letter
分组并将值向下移动一。 这可以通过groupby/transform('shift')
。
import datetime as DT
import numpy as np
import pandas as pd
def business_days(start, end):
mask = pd.notnull(start) & pd.notnull(end)
start = start.values.astype('datetime64[D]')[mask]
end = end.values.astype('datetime64[D]')[mask]
result = np.empty(len(mask), dtype=float)
result[mask] = np.busday_count(start, end)
result[~mask] = np.nan
return result
df = pd.DataFrame(data=[['A', DT.datetime(2016, 1, 7), None],
['A', DT.datetime(2016, 3, 1), DT.datetime(2016, 3, 8)],
['B', DT.datetime(2016, 5, 1), DT.datetime(2016, 5, 10)],
['B', DT.datetime(2016, 6, 5), DT.datetime(2016, 6, 7)]],
columns=['Letter', 'First Date', 'Last Date'])
df['Gap'] = business_days(df['First Date'], df['Last Date'])
print(df)
# Letter First Date Last Date Gap
# 0 A 2016-01-07 NaT NaN
# 1 A 2016-03-01 2016-03-08 5.0
# 2 B 2016-05-01 2016-05-10 6.0
# 3 B 2016-06-05 2016-06-07 1.0
df['Gap'] = df.groupby('Letter')['Gap'].transform('shift')
print(df)
版画
Letter First Date Last Date Gap
0 A 2016-01-07 NaT NaN
1 A 2016-03-01 2016-03-08 NaN
2 B 2016-05-01 2016-05-10 NaN
3 B 2016-06-05 2016-06-07 6.0
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.