使用条件在第二个熊猫 df 上为列分配值

Question

我有一个带有日期和位置的 Pandas 数据框：

df1 = pd.DataFrame({'dates':['1-1-2013', '1-2-2013', 
      '1-3-2013'], 'locations':['L1','L2','L3']})

另一个 DataFrame 具有与每个位置相交的兴趣点计数：

df2 = pd.DataFrame({'dates':['1-1-2013', '1-2-2013', 
      '1-3-2013'], 'locations':['L1','L1','L1'], 'poi_cts':[23,12,23]})

df2 中的日期是 df1 日期的一小部分。

我想在 df1 (df1['counts']) 中创建一个列，该列对指定日期范围内（例如，在 df1 中的日期之前 14 天内）的 poi_cts 的每个位置/日期的 poi_cts 求和。

我试过了：

def ct_pts(window=14):

    Date = row.Date

    cts = np.sum(df2[(df2['Date'] < Date) & (df2['Date'] > (Date - np.timedelta64(window,'D')))]['poi_cts'])

return cts

df1.apply(ct_pts, axis = 1)

但这不起作用（不确定如何为每一行分配列，我在某处看到了这个示例，但它不起作用）。

我也可以按列来做这个，但我也在那里挣扎：

def ct_pts():
    new = pd.DataFrame()
    for location in pd.unique(df1['locations']):
        subset = df1[df1['locations']==location]
        for date in pd.unique(df1['Date']):
            df2 = df[df['Date'] == date]
            df2['spray'] = np.sum(df2[(df2['Date'] < Date) & (df2['Date'] > (Date - np.timedelta64(window,'D')))]['poi_cts'])
            new = new.append(df2)
    return new

这也不起作用。

我觉得我错过了一些非常简单的东西，有没有简单的方法来做到这一点？

Answer 1

我正在使用numpy boardcast来加快整个过程

l=[]
for x , y in df1.groupby('locations'):
    s=df2.loc[df2.locations==x,'dates'].values
    t=y['dates'].values
    v=((t[:,None]-s)/np.timedelta64(1, 'D'))
    l.extend(np.dot(((v>-14)&(v<=0)),df2.loc[df2.locations==x,'poi_cts'].values))



df1['cts']=l
df1
Out[167]: 
       dates locations  cts
0 2013-01-01        L1   23
1 2013-02-01        L2    0
2 2013-03-01        L3    0

Answer 2

这可能会慢一点，但您可以通过以下方式使用apply执行此操作：

创建一个新列来获取start_dates以便更容易过滤：

 df1['dates'] = pd.to_datetime(df1['dates']) df1['start_dates'] = df1['dates'] - pd.to_timedelta(14, unit='d')

在整个数据帧上应用函数：

 def ct_pts(row): df_fil = df2[(df2['dates'] <= row['dates']) & (df2['dates'] >= row['start_dates']) & (df2['locations'] == row['locations'])] row['counts'] = sum(df_fil['poi_cts']) return row df1 = df1.apply(ct_pts, axis=1)

输出：

dates       locations   start_dates counts
2013-01-01  L1          2012-12-18  23
2013-01-02  L2          2012-12-19  0
2013-01-03  L3          2012-12-20  0

Answer 3

我最初尝试使用 apply 工作：

def num_spray(row):

    Date = row['Date']

    cts = np.sum(df2[(df2['Date'] < Date) & (df2['Date'] > (Date - np.timedelta64(window,'D')))]['poi_cts'])

    return cts

df1.apply(ct_pts, axis = 1)

使用条件在第二个熊猫 df 上为列分配值

问题描述

3 个解决方案

解决方案1
1 2019-03-12 23:04:51

解决方案2
1 已采纳 2019-03-12 23:17:12

解决方案3
0 2019-03-12 23:34:50

使用条件在第二个熊猫 df 上为列分配值

问题描述

3 个解决方案

解决方案1 1 2019-03-12 23:04:51

解决方案2 1 已采纳 2019-03-12 23:17:12

解决方案3 0 2019-03-12 23:34:50

解决方案1
1 2019-03-12 23:04:51

解决方案2
1 已采纳 2019-03-12 23:17:12

解决方案3
0 2019-03-12 23:34:50