簡體   English   中英

Pandas 根據 DataFrame 中的另一列填充 NA 的增量值

[英]Pandas fill incremental values for NA's according to another column in the DataFrame

我有一個 dataframe ,每個用戶都有會話。 其中一個專欄是迄今為止的會議。 其中一些會話具有 null 值。 我相信我可以使用 fillna 和 transform 方法來適當地填充 dataframe。

import pandas as pd

df = pd.DataFrame({'user': [A, A, A, A, A, B, B, B, B, C, C, C, C, C],  'sessions': [28, NaN, NaN, NaN , 32, NaN, NaN,NaN,12, NaN,15, NaN, 17,NaN]})

預期 Output DataFrame:

df_out = pd.DataFrame({'user': [A, A, A, A, A, B, B, B, B, C, C, C, C, C],  'sessions': [28, 29, 30, 31 , 32, 9, 10, 11,12, 14,15,16,17,18]})

試過的代碼:

df['sessions'] = df['sessions'].fillna(df.groupby('user')['sessions'].transform('mean'))

如果我要填補平均數,這是可行的,這是我所能想到的。 請提出一些方法。

PS - session 的起始值不是 1。我在某個時間點從快照中執行此操作。 我沒有數據可以追溯到每個用戶的 session 編號 1。

假設非NaN值之間沒有不匹配,您可以執行以下操作:

def fun(x):
    _, diff = (~x.reset_index().isna()).idxmax()  # find the absolute position of the first non NaN

    start = x[(~x.isna()).idxmax()] - diff  # find the start value

    result = pd.RangeIndex(start, start + len(x))  # generate range based on first value and length of group

    return pd.Series(data=result.values, index=x.index)  # return series


df['count'] = df.groupby('user').sessions.apply(fun)

print(df)

Output

   user  sessions  count
0     A      28.0     28
1     A       NaN     29
2     A       NaN     30
3     A       NaN     31
4     A      32.0     32
5     B       NaN      9
6     B       NaN     10
7     B       NaN     11
8     B      12.0     12
9     C       NaN     14
10    C      15.0     15
11    C       NaN     16
12    C      17.0     17
13    C       NaN     18

function fun的第一行,相當於:

diff = (~x.reset_index().isna()).idxmax()[1]

基本上在歸一化(從 0 開始)索引中找到索引 position。

對每個組使用cumsumfillna(1)

df.groupby('user',sort=False)['sessions'].apply(lambda x: x.fillna(1).cumsum()).reset_index()

您可以使用 groupby cumcountfirst重新構建sessions

s = df.groupby('user').sessions.cumcount()
s1 = (df.sessions - s).groupby(df.user).transform('first')

df['sessions'] = s1 + s

In [867]: df
Out[867]:
   user  sessions
0     A      28.0
1     A      29.0
2     A      30.0
3     A      31.0
4     A      32.0
5     B       9.0
6     B      10.0
7     B      11.0
8     B      12.0
9     C      14.0
10    C      15.0
11    C      16.0
12    C      17.0
13    C      18.0

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM