使用Pandas Groupby和应用功能时处理None值

Question

我在Pandas有一个数据Dataframe ，其中有一个字母和两个日期作为列。 我想使用shift()计算上一行的两个日期列之间的工作日，前提是Letter值相同（使用.groupby() ）。 我正在使用.apply()做到这一点。 这一直有效，直到我传递了一些缺少某个日期的数据。 我将所有内容移至一个函数，以使用try/except子句处理缺少的值，但现在我的函数将为所有内容返回NaN 。 看来日期的None值会影响函数的每次调用，而我认为只有当.groupby()的Letter为A时，它才会.groupby() 。

import pandas as pd
from datetime import datetime
import numpy as np

def business_days(x):
    try:
      return pd.DataFrame(np.busday_count(x['First Date'].tolist(), x['Last Date'].tolist())).shift().reset_index(drop=True)
    except ValueError:
        return None

df = pd.DataFrame(data=[['A', datetime(2016, 1, 7), None],
                        ['A', datetime(2016, 3, 1), datetime(2016, 3, 8)],
                        ['B', datetime(2016, 5, 1), datetime(2016, 5, 10)],
                        ['B', datetime(2016, 6, 5), datetime(2016, 6, 7)]],
                  columns=['Letter', 'First Date', 'Last Date'])

df['First Date'] = df['First Date'].apply(lambda x: x.to_datetime().date())
df['Last Date'] = df['Last Date'].apply(lambda x: x.to_datetime().date())

df['Gap'] = df.groupby('Letter').apply(business_days)

print df

实际输出：

  Letter  First Date   Last Date  Gap
0      A  2016-01-07         NaT  NaN
1      A  2016-03-01  2016-03-08  NaN
2      B  2016-05-01  2016-05-10  NaN
3      B  2016-06-05  2016-06-07  NaN

所需输出：

  Letter   First Day    Last Day   Gap
0      A  2016-01-07         NAT  NAN
1      A  2016-03-01  2016-03-08  NAN
2      B  2016-05-01  2016-05-10  NAN
3      B  2016-06-05  2016-06-07  7

Answer 1

暂时忽略NaT ，请注意，可以在应用groupby 之前对df整个列进行np.busday_count计算。 这将节省时间，因为np.busday_count单个调用np.busday_count替换了许多对np.busday_count调用（每个组一个）。 通常，对大型数组进行一个函数调用要比对小型数组进行许多函数调用要快。
要处理NaT ，可以使用pd.notnull标识具有NaT的行并屏蔽First Date和Last Date以便仅将有效日期发送到np.busday_count 。 然后，您可以为日期为NaT的行填写NaN 。
在计算完所有工作日计数之后，我们要做的就是按Letter分组并将值向下移动一。 这可以通过groupby/transform('shift') 。

import datetime as DT
import numpy as np
import pandas as pd

def business_days(start, end):
    mask = pd.notnull(start) & pd.notnull(end)
    start = start.values.astype('datetime64[D]')[mask]
    end = end.values.astype('datetime64[D]')[mask]
    result = np.empty(len(mask), dtype=float)
    result[mask] = np.busday_count(start, end)
    result[~mask] = np.nan
    return result

df = pd.DataFrame(data=[['A', DT.datetime(2016, 1, 7), None],
                        ['A', DT.datetime(2016, 3, 1), DT.datetime(2016, 3, 8)],
                        ['B', DT.datetime(2016, 5, 1), DT.datetime(2016, 5, 10)],
                        ['B', DT.datetime(2016, 6, 5), DT.datetime(2016, 6, 7)]],
                  columns=['Letter', 'First Date', 'Last Date'])

df['Gap'] = business_days(df['First Date'], df['Last Date'])
print(df)
#   Letter First Date  Last Date  Gap
# 0      A 2016-01-07        NaT  NaN
# 1      A 2016-03-01 2016-03-08  5.0
# 2      B 2016-05-01 2016-05-10  6.0
# 3      B 2016-06-05 2016-06-07  1.0

df['Gap'] = df.groupby('Letter')['Gap'].transform('shift')
print(df)

版画

  Letter First Date  Last Date  Gap
0      A 2016-01-07        NaT  NaN
1      A 2016-03-01 2016-03-08  NaN
2      B 2016-05-01 2016-05-10  NaN
3      B 2016-06-05 2016-06-07  6.0

使用Pandas Groupby和应用功能时处理None值

问题描述

1 个解决方案

解决方案1
4 已采纳 2016-06-01 19:51:25

使用Pandas Groupby和应用功能时处理None值

问题描述

1 个解决方案

解决方案1 4 已采纳 2016-06-01 19:51:25

解决方案1
4 已采纳 2016-06-01 19:51:25