比较 Pandas dataframe 中不同行的两个值

Question

我有一个按id和sub_id分组的具有不同提交时间的提交记录数据集。 id下会有多个sub_id不同的提交，表示它们是原始事件的子事件。 例如：

id    sub_id     submission_time       valuation_time            amend_time
G1    Original   2021-05-13T00:11:05Z  2021-05-13T00:12:05Z      
G1    Valuation  2021-05-13T06:11:05Z  2021-05-13T06:12:10Z                    
G1    Amend      2021-05-14T08:09:01Z  2021-05-14T09:09:05Z      2021-05-18T19:19:15Z
G2    Original   2021-04-12T00:11:05Z  2021-04-12T00:12:05Z      
G2    Valuation  2021-04-12T06:11:05Z  2021-04-12T06:12:10Z      
...

我想通过数据集valuation_time并检查sub_id == "Valuation"的评估时间是否在同一id参考下sub_id == "Original"的submission_time时间之后。 如果这是真的，我想输入一个新列并填充sub_id == "Valuation"为pass ，否则为fail 。

我非常感谢您在这方面的帮助，因为我对这个挑战一无所知。 太感谢了。

Answer 1

请试试这个

import datetime
df=pd.read_excel('C:\MyCodes\samplepython.xlsx')
df['Status']=''
df_new=pd.DataFrame()
for index, row in df.iterrows():
    sub_time = datetime.datetime.strptime(row['submission_time'], "%Y-%m- 
    %dT%H:%M:%SZ")
    val_time = datetime.datetime.strptime(row['valuation_time'], "%Y-%m- 
    %dT%H:%M:%SZ")
    if row['sub_id']=='Valuation' and val_time>sub_time:
        row['Status']='Pass'
    elif row['sub_id']=='Valuation' and val_time<=sub_time:
        row['Status']='Fail'
    df_new=df_new.append(row)

Answer 2

代码：

import datetime
import pandas as pd

list_values=[['G1','Original',datetime.datetime.strptime('2021-05-13T00:11:05Z', "%Y-%m-%dT%H:%M:%SZ"),datetime.datetime.strptime('2021-05-13T00:12:05Z', "%Y-%m-%dT%H:%M:%SZ")], 
[< please load other values>],
['G2','Valuation',datetime.datetime.strptime('2021-04-12T06:11:05Z', "%Y-%m-%dT%H:%M:%SZ"),datetime.datetime.strptime('2021-04-12T06:12:10Z', "%Y-%m-%dT%H:%M:%SZ")]]

df=pd.DataFrame(list_values,columns = ['id', 'sub_id', 
                         'submission_time', 'valuation_time'])
df.sort_values(by=['id', 'sub_id'])
status=[]
level=0
for index,row in df.iterrows():
  if level==0 and row['sub_id']=='Original': 
    sub_time=row['submission_time']
    status.append('')
    level+=1
  elif level==1 and row['sub_id']=='Valuation':
    val_time=row['valuation_time']
    if sub_time>val_time:
        status.append('Fail') 
    else:
        status.append('Pass')
    level=0
  else:
    level=0
    status.append('')
df["Status"]=status
print(df)

结果：

比较 Pandas dataframe 中不同行的两个值

问题描述

2 个解决方案

解决方案1
0 已采纳 2021-06-02 19:50:45

解决方案2
0 2021-06-02 21:52:28

比较 Pandas dataframe 中不同行的两个值

问题描述

2 个解决方案

解决方案1 0 已采纳 2021-06-02 19:50:45

解决方案2 0 2021-06-02 21:52:28

解决方案1
0 已采纳 2021-06-02 19:50:45

解决方案2
0 2021-06-02 21:52:28