將大熊貓中相同的連續值分組並存儲：值，索引和列切片

Question

我有一個數據框

import pandas as pd
import numpy as np
v1=list(np.random.rand(30))
v2=list(np.random.rand(30))
mydf=pd.DataFrame(data=zip(v1,v2),columns=['var1','var2'])

然后我在一些變量上應用一些布爾條件

mydf['cond1']=mydf['var1']>0.2
mydf['cond2']=mydf['var1']>0.8


mydf['cond1']=
0 False
1 True
2 True
3 False
4 False
5 True
6 False
....

我想將“ cond1”（或“ cond2”）為True的塊分組，並針對每個分組存儲：

群組的值：對/錯
塊的開始和結束的索引：例如1,2 5,5
var2在開始和結束的索引處的2個值，
開頭和結尾的索引之間的var1所有值，作為可迭代的（np.array的列表）

這是返回值的一個示例：

summary=
'Start' 'End' 'Start_var2' 'End_var2' 'Value' 'var1'
 1        2    0.3217381    0.454543   True    [0.25,0.26]

Answer 1

我認為您可以使用此SO答案。 i給您組號， g的index可用於獲取var值。

v1=list(np.random.rand(30))
v2=list(np.random.rand(30))
df=pd.DataFrame(data=zip(v1,v2),columns=['var1','var2'])

df['cond1']=df['var1']>0.2
df['cond2']=df['var1']>0.8

for i, g in df.groupby([(df['cond1'] != df['cond1'].shift()).cumsum()]):
    print (i)
    print (g)
    print (g['cond1'].tolist())
    print(g['cond1'].index[0])#can get var values from this

Answer 2

IIUC，讓我們嘗試這樣的事情：

mydf.groupby(mydf.cond1.diff().cumsum(), as_index=False)\
    .apply(lambda x: pd.Series([x.iloc[0].name,
                                x.iloc[-1].name, 
                                x.iloc[0]['var2'], 
                                x.iloc[-1]['var2'], 
                                x.iloc[0]['cond1'], 
                                x.var1.tolist()],
                                index=['Start','End','Start_var2',
                                       'End_var2','Value','var1']))

輸出：

   Start  End  Start_var2  End_var2  Value                                               var1
0      1   13    0.580713  0.772878   True  [0.9080110836630401, 0.34879731608699105, 0.63...
1     14   14    0.688374  0.688374  False                              [0.11739843719148924]
2     15   15    0.204304  0.204304   True                               [0.3010533582011998]
3     16   17    0.470689  0.808964  False         [0.14526373397045378, 0.09218609736837002]
4     18   20    0.675035  0.087408   True  [0.6029321967069232, 0.3641874497564469, 0.564...
5     21   21    0.346795  0.346795  False                               [0.1913357207205566]
6     22   29    0.944366  0.845753   True  [0.6769058596527606, 0.2155054472756598, 0.278...

將大熊貓中相同的連續值分組並存儲：值，索引和列切片

問題描述

2 個解決方案

解決方案1
1 2018-01-25 15:01:34

解決方案2
1 已采納 2018-01-25 15:21:39

將大熊貓中相同的連續值分組並存儲：值，索引和列切片

問題描述

2 個解決方案

解決方案1 1 2018-01-25 15:01:34

解決方案2 1 已采納 2018-01-25 15:21:39

解決方案1
1 2018-01-25 15:01:34

解決方案2
1 已采納 2018-01-25 15:21:39