[英]Scroll through two data frames and compare a column of data
我有以下數據框:
import pandas as pd
import numpy as np
df_Sensor = pd.DataFrame({'ID_System_Embed': ['1000', '1000', '1000', '1003', '1004'],
'Date_Time': ['2020-10-18 12:58:05', '2020-10-18 12:58:15',
'2020-10-19 20:10:10', '2018-12-18 12:58:00',
'2015-10-25 11:00:00']})
df_Period = pd.DataFrame({'ID_System_Embed': ['1000', '1000', '1001', '1002', '1003', '1004'],
'ID_Sensor': ['1', '2', '3', '4', '5', '6'],
'Date_Init': ['2020-10-18 12:58:00', '2020-10-18 19:58:00',
'2019-11-18 19:58:00', '2018-12-29 12:58:00',
'2019-11-20 12:58:00', '2015-10-25 10:00:00'],
'Date_End': ['2020-10-18 16:58:00', '2020-10-19 20:58:00',
'2019-11-25 12:58:00', '2018-12-18 12:58:00',
'2019-11-25 12:58:00', '2015-10-25 12:00:00']})
我需要檢測數據幀“df_Sensor”的日期是否包含在同一 ID_System_Embed(嵌入式系統的標識符)的第二個數據幀(df_Period)的日期范圍內。
我嘗試實現以下代碼:
df_Period['New_Column'] = 0
for j in range(0, len(df_Period)):
for i in range(0, len(df_Sensor)):
if((df_Sensor['ID_System_Embed'].iloc[i] == df_Period['ID_System_Embed'].iloc[j]) &
(df_Sensor['Date_Time'].iloc[i] >= df_Period['Date_Init'].iloc[j]) &
(df_Sensor['Date_Time'].iloc[i] <= df_Period['Date_End'].iloc[j])):
df_Period['New_Column'].iloc[j] += 1
此代碼正在合並並產生預期的輸出。 但是,它不是很有效,因為它需要在兩個數據幀之間進行迭代(使用 for)。 我想發現一種更快、更有效的方法來進行操作並產生相同的輸出。
輸出是:
ID_System_Embed ID_Sensor Date_Init Date_End New_Column
1000 1 2020-10-18 12:58:00 2020-10-18 16:58:00 2
1000 2 2020-10-18 19:58:00 2020-10-19 20:58:00 1
1001 3 2019-11-18 19:58:00 2019-11-25 12:58:00 0
1002 4 2018-12-29 12:58:00 2018-12-18 12:58:00 0
1003 5 2019-11-20 12:58:00 2019-11-25 12:58:00 0
1004 6 2015-10-25 10:00:00 2015-10-25 12:00:00 1
按 ['ID_System_Embed', 'ID_Sensor'] 將 df_Period 和 df_Sensor 分組為唯一鍵
然后使用 appnd 函數將其他日期列的聚合值作為列表
def appnd(col):
return [d for d in col]
df_p = df_Period.copy().groupby(['ID_System_Embed', 'ID_Sensor']).agg(appnd)
df_s = df_Sensor.copy().groupby(['ID_System_Embed']).agg(appnd)
然后加入兩個數據框(你可以用 0 填充 NaN)
df = df_p.join(df_s).fillna(value = 0)
df['New_Column'] = 0
df
將此函數應用於將結果映射到 New_Column 的日期列
def inInterval(row):
ctr = 0
for d in row[2]:
for start, end in zip(row[0], row[1]):
if start <= d <= end: ctr +=1
return ctr
df['New_Column'] = df[ ['Date_Init', 'Date_End', 'Date_Time'] ].copy()\
.apply(lambda x: inInterval(x) if type(x[2]) == list else 0, axis = 1)
df
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.