如何對混合類型的 Pandas 數據框進行重新采樣？

Question

我使用以下 Python 代碼生成混合類型（浮點數和字符串）Pandas DataFrame df3：

df1 = pd.DataFrame(np.random.randn(dates.shape[0],2),index=dates,columns=list('AB'))
df1['C'] = 'A'
df1['D'] = 'Pickles'
df2 = pd.DataFrame(np.random.randn(dates.shape[0], 2),index=dates,columns=list('AB'))
df2['C'] = 'B'
df2['D'] = 'Ham'
df3 = pd.concat([df1, df2], axis=0)

當我將 df3 重新采樣到更高的頻率時，我沒有將幀重新采樣到更高的速率，但是 how 被忽略了，我只是得到了缺失值：

df4 = df3.groupby(['C']).resample('M',  how={'A': 'mean', 'B': 'mean',  'D': 'ffill'})
df4.head()

結果：

                      B          A        D
C                                          
A 2014-03-31 -0.4640906 -0.2435414  Pickles
  2014-04-30        NaN        NaN      NaN
  2014-05-31        NaN        NaN      NaN
  2014-06-30 -0.5626360  0.6679614  Pickles
  2014-07-31        NaN        NaN      NaN

當我將 df3 重新采樣到較低頻率時，我根本沒有得到任何重新采樣：

df5 = df3.groupby(['C']).resample('A',  how={'A': np.mean, 'B': np.mean,  'D': 'ffill'})
df5.head()

結果：

                      B          A        D
C                                          
A 2014-03-31        NaN        NaN  Pickles
  2014-06-30        NaN        NaN  Pickles
  2014-09-30        NaN        NaN  Pickles
  2014-12-31 -0.7429617 -0.1065645  Pickles
  2015-03-31        NaN        NaN  Pickles

我很確定這與混合類型有關，因為如果我僅使用數字列重做年度下采樣，一切都會按預期工作：

df5b = df3[['A', 'B', 'C']].groupby(['C']).resample('A',  how={'A': np.mean, 'B': np.mean})
df5b.head()

結果：

                     B          A
  C                                 
  A 2014-12-31 -0.7429617 -0.1065645
    2015-12-31 -0.6245030 -0.3101057
  B 2014-12-31  0.4213621 -0.0708263
    2015-12-31 -0.0607028  0.0110456

但即使我切換到數字類型，對更高頻率的重采樣仍然無法按我預期的那樣工作：

df4b = df3[['A', 'B', 'C']].groupby(['C']).resample('M',  how={'A': 'mean', 'B': 'mean'})
df4b.head()

結果：

                      B          A
C                                 
A 2014-03-31 -0.4640906 -0.2435414
  2014-04-30        NaN        NaN
  2014-05-31        NaN        NaN
  2014-06-30 -0.5626360  0.6679614
  2014-07-31        NaN        NaN

這給我留下了兩個問題：

對混合類型的數據幀重新采樣的正確方法是什么？
當從較低頻率重采樣到較高頻率時，進行重采樣以便插入新值的正確方法是什么？

即使您不能對這兩個部分都提供完整的答案，也可以提供部分解決方案或對任一問題的答案。

Answer 1

當從較低頻率重新采樣到較高頻率時，我意識到我在指定fill_method時指定了how 。 當我這樣做時，事情似乎有效。

df4c = df3.groupby(['C']).resample('M',  fill_method='ffill')
df4c.head()
                     A          B        D
C                                          
A 2014-03-31 -0.2435414 -0.4640906  Pickles
  2014-04-30 -0.2435414 -0.4640906  Pickles
  2014-05-31 -0.2435414 -0.4640906  Pickles
  2014-06-30  0.6679614 -0.5626360  Pickles
  2014-07-31  0.6679614 -0.5626360  Pickles

您獲得的插值選擇集要有限得多，但它確實可以處理混合類型。

當使用 no how選項（我相信它的默認含義）重新采樣到較低頻率時，下采樣確實有效：

   df5c =df3.groupby(['C']).resample('A')
   df5c.head()
                  A          B
C                                 
A 2014-12-31 -0.1065645 -0.7429617
  2015-12-31 -0.3101057 -0.6245030
B 2014-12-31 -0.0708263  0.4213621
  2015-12-31  0.0110456 -0.0607028

因此，問題似乎出在傳遞選項字典或其中一個選項的字典上，大概是ffill ，但我不確定。

Answer 2

使用`resample`和`agg`

從pandas-1.0.0開始， how和fill_method關鍵字不再存在。 此外， resample方法現在返回一個Resampler對象。

解決方案是使用與每一列關聯的函數或函數名稱來定義聚合規則。

df.resample(period).agg(aggregation_rule)

文檔中有關聚合規則的更多示例。

工作示例

准備測試數據：

import numpy as np
import pandas as pd

dates = pd.date_range("2021-02-09", "2021-04-09", freq="1D")
df1 = pd.DataFrame(np.random.randn(dates.shape[0],2), index=dates, columns=list('AB'))
df1['C'] = 'A'
df1['D'] = 'Pickles'
df2 = pd.DataFrame(np.random.randn(dates.shape[0], 2), index=dates, columns=list('AB'))
df2['C'] = 'B'
df2['D'] = 'Ham'
df3 = pd.concat([df1, df2], axis=0)
print(df3)

輸出：

                   A         B  C        D
2021-02-09  2.591285  2.455686  A  Pickles
2021-02-10  0.753461 -0.072643  A  Pickles
2021-02-11 -0.351667 -0.025511  A  Pickles
2021-02-12 -0.896730  0.004512  A  Pickles
2021-02-13 -0.493139 -0.770514  A  Pickles
...              ...       ... ..      ...
2021-04-05  1.615935  1.152517  B      Ham
2021-04-06 -0.067654 -0.858186  B      Ham
2021-04-07  0.085587 -0.848542  B      Ham
2021-04-08 -0.371983  0.088441  B      Ham
2021-04-09  0.681501  0.235328  B      Ham

[120 rows x 4 columns]

每月重新取樣：

agg_rules = { "A": "mean", "B": "sum", "C": "first", "D": "last",}
df4 = df3.resample("M").agg(agg_rules)
print(df4)

輸出：

                   A         B  C    D
2021-02-28  0.025987  3.886781  A  Ham
2021-03-31  0.081423 -5.492928  A  Ham
2021-04-30  0.239309 -3.344334  A  Ham

如何對混合類型的 Pandas 數據框進行重新采樣？

問題描述

2 個解決方案

解決方案1
2 已采納 2016-01-07 19:32:59

解決方案2
2 2021-04-09 09:59:25

使用`resample`和`agg`

工作示例

如何對混合類型的 Pandas 數據框進行重新采樣？

問題描述

2 個解決方案

解決方案1 2 已采納 2016-01-07 19:32:59

解決方案2 2 2021-04-09 09:59:25

使用resample和agg

工作示例

解決方案1
2 已采納 2016-01-07 19:32:59

解決方案2
2 2021-04-09 09:59:25

使用`resample`和`agg`