簡體   English   中英

Python熊貓:從累積中創建離散序列

[英]Python pandas: creating a discrete series from a cumulative

我有一個數據框,其中有幾組數字序列,其中的值是累積的。 考慮以下:

df = pd.DataFrame({'Cat': ['A', 'A','A','A', 'B','B','B','B'], 'Indicator': [1,2,3,4,1,2,3,4], 'Cumulative1': [1,3,6,7,2,4,6,9], 'Cumulative2': [1,3,4,6,1,5,7,12]})

In [74]:df
Out[74]: 
Cat  Cumulative1  Cumulative2  Indicator
0   A            1            1          1
1   A            3            3          2
2   A            6            4          3
3   A            7            6          4
4   B            2            1          1
5   B            4            5          2
6   B            6            7          3
7   B            9           12          4

我需要為Cumulative1和Cumulative2創建離散序列,起始點是“ Indicator”中最早的條目。

我的方法是使用diff()

In[82]: df['Discrete1'] = df.groupby('Cat')['Cumulative1'].diff()
Out[82]: df
  Cat  Cumulative1  Cumulative2  Indicator  Discrete1
0   A            1            1          1        NaN
1   A            3            3          2        2.0
2   A            6            4          3        3.0
3   A            7            6          4        1.0
4   B            2            1          1        NaN
5   B            4            5          2        2.0
6   B            6            7          3        2.0
7   B            9           12          4        3.0

我有3個問題:

如何以優雅/ Python方式避免NaN? 正確的值可以在原始“累積”系列中找到。

其次,如何優雅地將此計算應用於所有系列,例如-

 cols = ['Cumulative1', 'Cumulative2']

第三,我有很多數據需要這種計算-這是最有效的方法嗎?

您不想避免使用NaN,而是要使用“累積”列中的起始值來填充它們:

df['Discrete1'] = df['Discrete1'].combine_first(df['Cumulative1'])

要將操作應用於所有(或選擇)列,請將其廣播到所有感興趣的列:

sources = 'Cumulative1', 'Cumulative2'
targets = ["Discrete" + x[len('Cumulative'):] for x in sources]

df[targets] = df.groupby('Cat')[sources].diff()

您仍然必須循環處理NaN:

for s,t in zip(sources, targets):
    df[t] = df[t].combine_first(df[s])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM