時間序列根據每天的價值自動標記

Question

我想使用點參考數據並將其轉換為可按時間序列分析的類型。 我的數據有 start_date 和 end_date，我用它們來計算事件的持續時間（如果 start 和 end_date 在同一天，則返回 1。持續時間值范圍在 0 到 326 之間）。

此外，我還有另一個 pd dataframe，它是一系列扁平化的圖像，大小為 x*y，其中包括（除其他外）三列：時間、lon(x)、lat(y)。

現在，我想 append 到后一個數據集一個真正的 boolean 如果日期在里面（start_date + duration）。 否則，返回 False。

下面我從所需的 output 創建了一些示例數據，以可視化我想要實現的目標。 有人知道如何解決這個問題嗎？

接下來，我想為該持續時間內的行添加真正的標簽。 請參閱我的數據示例以及所需的 output。 有人知道我應該如何解決這個問題嗎？

pd.DataFrame({'lat':[50,60], 
          'long':[-120,-110], 
          'time':[np.datetime64('2020-01-01'),np.datetime64('2020-05-06')],
          'end_time':[np.datetime64('2020-01-04'),np.datetime64('2020-05-06')],
          'duration':[4,1]})


    lat lon     time        end_time    duration
0   50  -120    2020-01-01  2020-01-04  4
x   60  -110    2020-05-06  2020-05-06  1

所需的 output 如下所示：

    lat lon     time        label
0   50  -120    2020-01-01  True
1   50  -120    2020-01-02  True
2   50  -120    2020-01-03  True
3   50  -120    2020-01-04  True
4   50  -120    2020-01-05  False
...
x-1 60  -110    2020-05-05  False
x   60  -110    2020-05-06  True
x+1 60  -110    2020-05-07  False

編輯：下面是我的數據結構的示例：

 df = pd.DataFrame({'time': [np.datetime64('2002-05-18'),np.datetime64('2002-05-18'),np.datetime64('2002-05-18'),np.datetime64('2002-05-18'),np.datetime64('2002-05-18')],
                   'lon': [-116.125, -115.875, -115.625, -115.375, -115.125],
                   'lat': [55.125, 55.125, 55.125, 55.125, 55.125],
                   'out_date': [np.datetime64('2002-05-19'), None, None, None, None],
                   'duration_days': [2, None, None, None, None],
                   'Fire': [True, None, None, None, None],
                   'size_ha': [0.1, None, None, None, None],
                   'fire_count': [1, None, None, None, None]})

    time        lon         lat     out_date    duration_days   Fire    size_ha fire_count
0   2002-05-18  -116.125    55.125  2002-05-19  2.0             True    0.1     1.0
1   2002-05-18  -115.875    55.125  NaT         NaN             None    NaN     NaN
2   2002-05-18  -115.625    55.125  NaT         NaN             None    NaN     NaN
3   2002-05-18  -115.375    55.125  NaT         NaN             None    NaN     NaN
4   2002-05-18  -115.125    55.125  NaT         NaN             None    NaN     NaN

每天有 42x46 的lon, lat組合，在去第二天之前通過。 在新添加的表格中，您會看到森林火災發生在'time': 2002-05-18 ，坐標 x 和 y 的持續時間為 2。我想知道，如果我現在將 go 1932 (42x46) 行降至'time': 2002-05-19看到 'fire' 列（這是一個標簽）更新為True 。 假設我們按 lon 和 lat 分組，數據將查看“所需輸出”示例 dataframe 中的數據。

Answer 1

首先將兩列轉換為日期時間並將一天添加到end_date ，然后通過Index.repeat重復索引並減去天數並通過GroupBy.cumcount和to_timedelta添加計數器值：

df['time'] = pd.to_datetime(df['time'])
df['end_time'] = pd.to_datetime(df['end_time']) + pd.Timedelta(1, unit='d')

s = df.pop('end_time').sub(df['time']).dt.days
df = df.loc[df.index.repeat(s)].copy()
counter = df.groupby(level=0).cumcount()
df['time'] = df['time'].add(pd.to_timedelta(counter, unit='d'))
df = df.reset_index(drop=True)
print (df)
   lat  long       time  duration
0   50  -120 2020-01-01         4
1   50  -120 2020-01-02         4
2   50  -120 2020-01-03         4
3   50  -120 2020-01-04         4
4   60  -110 2020-05-06         1

然后由另一個DataFrame與左連接和indicator參數合並，最后由both進行比較：

df1 = pd.DataFrame({'time': [np.datetime64('2020-01-03'),np.datetime64('2002-05-18'),
                             np.datetime64('2002-05-18'),np.datetime64('2002-05-18'),
                             np.datetime64('2002-05-18')],
                   'lon': [-120, -115.875, -115.625, -115.375, -115.125],
                   'lat': [50, 55.125, 55.125, 55.125, 55.125],
                   'out_date': [np.datetime64('2002-05-19'), None, None, None, None],
                   'duration_days': [2, None, None, None, None],
                   'Fire': [True, None, None, None, None],
                   'size_ha': [0.1, None, None, None, None],
                   'fire_count': [1, None, None, None, None]})

df = (df1.rename(columns={'lon':'long'})
         .merge(df, 
                on=['lat','long','time'], 
                indicator='label', 
                how='left'))
df['label'] = df['label'].eq('both')
print (df)
        time     long     lat   out_date  duration_days  Fire  size_ha  \
0 2020-01-03 -120.000  50.000 2002-05-19            2.0  True      0.1   
1 2002-05-18 -115.875  55.125        NaT            NaN  None      NaN   
2 2002-05-18 -115.625  55.125        NaT            NaN  None      NaN   
3 2002-05-18 -115.375  55.125        NaT            NaN  None      NaN   
4 2002-05-18 -115.125  55.125        NaT            NaN  None      NaN   

   fire_count  duration  label  
0         1.0       4.0   True  
1         NaN       NaN  False  
2         NaN       NaN  False  
3         NaN       NaN  False  
4         NaN       NaN  False

編輯：如果錯誤：

ValueError：重復可能不包含負值

這意味着end_time的某些行低於time列：

df = pd.DataFrame({'lat':[50,60], 
          'long':[-120,-110], 
          'time':[np.datetime64('2020-01-01'),np.datetime64('2020-05-06')],
          'end_time':[np.datetime64('2020-01-04'),np.datetime64('2020-05-04')],
          'duration':[4,1]})

df['time'] = pd.to_datetime(df['time'])
df['end_time'] = pd.to_datetime(df['end_time']) 
print (df)
   lat  long       time   end_time  duration
0   50  -120 2020-01-01 2020-01-04         4
1   60  -110 2020-05-06 2020-05-04         1 end_time  < time

可能的解決方案是交換這些值：

m = df['time'].gt(df['end_time'])
d = {'end_time':'time','time':'end_time'}
df.loc[m, ['time','end_time']] = df.loc[m, ['end_time','time']].rename(columns=d)

df['end_time'] = df['end_time']  + pd.Timedelta(1, unit='d')
print (df)
   lat  long       time   end_time  duration
0   50  -120 2020-01-01 2020-01-05         4
1   60  -110 2020-05-04 2020-05-07         1

然后使用上面的解決方案：

s = df.pop('end_time').sub(df['time']).dt.days
df = df.loc[df.index.repeat(s)].copy()
counter = df.groupby(level=0).cumcount()
df['time'] = df['time'].add(pd.to_timedelta(counter, unit='d'))
df = df.reset_index(drop=True)
print (df)
   lat  long       time  duration
0   50  -120 2020-01-01         4
1   50  -120 2020-01-02         4
2   50  -120 2020-01-03         4
3   50  -120 2020-01-04         4
4   60  -110 2020-05-04         1
5   60  -110 2020-05-05         1
6   60  -110 2020-05-06         1

時間序列根據每天的價值自動標記

問題描述

1 個解決方案

解決方案1
1 已采納 2021-04-01 08:59:43

時間序列根據每天的價值自動標記

問題描述

1 個解決方案

解決方案1 1 已采納 2021-04-01 08:59:43

解決方案1
1 已采納 2021-04-01 08:59:43