如何在給定一個滯后差異的情況下減去兩列並在 Python 中按多列分組

Question

我有一個包含兩個 ID 列和兩個日期列的數據，如下所示：

import numpy as np
import pandas as pd

mydata = {'ID1': [1,1,2,3,3,4],
    'ID2': [1,2,3,4,5,6],
    'Date1': ['2011-04-23','2011-05-13','2012-04-23','2012-05-13','2011-08-23','2011-08-26'],
    'Date2': ['2011-04-25','2011-05-23','2012-04-1','2011-05-18','2011-08-24','2011-08-29']
     }
    mydata = pd.DataFrame(mydata)

我想創建一個新列，例如天，如下所示：如果 ID1 是唯一的，則 -1； 如果 ID1 不是唯一的，則計算 Date1（有滯后）和 Date2 之間的差異。 下面的代碼以某種方式起作用； 它不會為唯一 ID1 生成 -1。 這也有點奇怪。 感謝您對任何替代解決方案的幫助。

mydata['Date1'] = pd.to_datetime(mydata['Date1'])
mydata['Date2'] = pd.to_datetime(mydata['Date2'])

mydata = mydata.sort_values(['ID1', 'Date1'], ascending=[True, True])

diff_time = mydata['Date2'].rsub(mydata['Date1'].shift(-1), axis=0)
mydata['days'] = np.where(mydata['ID1']==mydata['ID1'].shift(-1),
                      (diff_time.dt.days*24+diff_time.astype(str).str.split('[ :]').str[2].astype(float))/24,0)

輸出：

    ID1 ID2  Date1       Date2      days
0   1   1   2011-04-23  2011-04-25  18.0
1   1   2   2011-05-13  2011-05-23  0.0
2   2   3   2012-04-23  2012-04-01  0.0      # 0.0 here should be -1 as ID1 is unique
4   3   5   2011-08-23  2011-08-24  263.0
3   3   4   2012-05-13  2011-05-18  0.0
5   4   6   2011-08-26  2011-08-29  0.0     # 0.0 here should be -1 as ID1 is unique

Answer 1

您可以使用DataFrameGroupBy.shift和復制的ID與Series.duplicated別的-1在numpy.where ：

mydata['Date1'] = pd.to_datetime(mydata['Date1'])
mydata['Date2'] = pd.to_datetime(mydata['Date2'])

mydata = mydata.sort_values(['ID1', 'Date1'], ascending=[True, True])

mask = mydata['ID1'].duplicated(keep=False)
diff_time = mydata['Date2'].rsub(mydata.groupby('ID1')['Date1'].shift(-1))
mydata['days'] =  np.where(mask, diff_time.dt.days, -1)
print (mydata)
   ID1  ID2      Date1      Date2   days
0    1    1 2011-04-23 2011-04-25   18.0
1    1    2 2011-05-13 2011-05-23    NaN
2    2    3 2012-04-23 2012-04-01   -1.0
4    3    5 2011-08-23 2011-08-24  263.0
3    3    4 2012-05-13 2011-05-18    NaN
5    4    6 2011-08-26 2011-08-29   -1.0

如何在給定一個滯后差異的情況下減去兩列並在 Python 中按多列分組

問題描述

1 個解決方案

解決方案1
1 已采納 2020-10-16 07:10:27

如何在給定一個滯后差異的情況下減去兩列並在 Python 中按多列分組

問題描述

1 個解決方案

解決方案1 1 已采納 2020-10-16 07:10:27

解決方案1
1 已采納 2020-10-16 07:10:27