如何計算在pandas數據幀中滿足布爾條件的時間間隔數？

Question

我有一個pandas df ，其中時間序列在column1 ，並且在column2有一個布爾條件。 這描述了滿足特定條件的連續時間間隔。 請注意，時間間隔長度不等。

Timestamp   Boolean_condition
1           1
2           1
3           0
4           1
5           1
6           1
7           0
8           0
9           1
10          0

如何計算滿足此條件的整個系列中的時間間隔總數？

所需的輸出應如下所示：

Timestamp   Boolean_condition   Event_number
1           1                   1
2           1                   1
3           0                   NaN
4           1                   2
5           1                   2
6           1                   2
7           0                   NaN
8           0                   NaN
9           1                   3
10          0                   NaN

Answer 1

您可以嘗試以下方法：

1）獲取包含isone的True實例（此處為1）的所有值

2）獲取相應的索引集並將其轉換為系列表示，以便新系列將其索引和值都作為先前計算的索引。 執行連續行之間的差異並檢查它們是否等於1.這將成為我們的布爾掩碼。

3）將isone與獲得的布爾掩碼進行比較，並且當它們不相等時，我們采用它們的累積和（也稱為元素之間的鄰接檢查）。 這些有助於我們進行分組。

4）使用loc作為isone的索引，我們將將grp數組更改為Categorical格式后計算的代碼分配給創建的新列Event_number 。

isone = df.Bolean_condition[df.Bolean_condition.eq(1)]
idx = isone.index
grp = (isone != idx.to_series().diff().eq(1)).cumsum()
df.loc[idx, 'Event_number'] = pd.Categorical(grp).codes + 1

更快的方法：

僅使用numpy ：

1）獲取它的數組表示。

2）計算非零，這里（ 1's ）的索引。

3）在該數組的開頭插入NaN ，這將作為我們在考慮連續行時執行差異的起點。

4）初始化填充有與原始陣列相同形狀的Nan's新陣列。

5）每當連續行之間的差異不等於1時，我們取其累積總和，否則它們屬於同一組。 這些值在前面有1's索引處被估算。

6）將這些分配回新列。

def nick(df):
    b = df.Bolean_condition.values
    slc = np.flatnonzero(b)
    slc_pl_1 = np.append(np.nan, slc)
    nan_arr = np.full(b.size, fill_value=np.nan)
    nan_arr[slc] = np.cumsum(slc_pl_1[1:] - slc_pl_1[:-1] != 1)
    df['Event_number'] = nan_arr
    return df

時序：

對於10,000行的DF ：

np.random.seed(42)
df1 = pd.DataFrame(dict(
        Timestamp=np.arange(10000),
        Bolean_condition=np.random.choice(np.array([0,1]), 10000, p=[0.4, 0.6]))
                  )

df1.shape
# (10000, 2)

def jez(df):
    mask0 = df.Bolean_condition.eq(0)
    mask2 = df.Bolean_condition.ne(df.Bolean_condition.shift(1))
    df['Event_number'] = (mask2 & mask0).cumsum().mask(mask0)
    return (df)

nick(df1).equals(jez(df1))
# True

%%timeit
nick(df1)
1000 loops, best of 3: 362 µs per loop

%%timeit
jez(df1)
100 loops, best of 3: 1.56 ms per loop

對於包含100萬行的DF ：

np.random.seed(42)
df1 = pd.DataFrame(dict(
        Timestamp=np.arange(1000000),
        Bolean_condition=np.random.choice(np.array([0,1]), 1000000, p=[0.4, 0.6]))
                  )

df1.shape
# (1000000, 2)

nick(df1).equals(jez(df1))
# True

%%timeit
nick(df1)
10 loops, best of 3: 34.9 ms per loop

%%timeit
jez(df1)
10 loops, best of 3: 50.1 ms per loop

Answer 2

您可以使用兩個masks cumsum創建Series ，然后通過函數Series.mask創建NaN ：

mask0 = df.Boolean_condition.eq(0)
mask2 = df.Boolean_condition.ne(df.Boolean_condition.shift(1))
print ((mask2 & mask0).cumsum().add(1))
0    1
1    1
2    2
3    2
4    2
5    2
6    3
7    3
8    3
9    4
Name: Boolean_condition, dtype: int32

df['Event_number'] = (mask2 & mask0).cumsum().add(1).mask(mask0)
print (df)
   Timestamp  Boolean_condition  Event_number
0          1                  1           1.0
1          2                  1           1.0
2          3                  0           NaN
3          4                  1           2.0
4          5                  1           2.0
5          6                  1           2.0
6          7                  0           NaN
7          8                  0           NaN
8          9                  1           3.0
9         10                  0           NaN

時間：

#[100000 rows x 2 columns
df = pd.concat([df]*10000).reset_index(drop=True)
df1 = df.copy()
df2 = df.copy()

def nick(df):
    isone = df.Boolean_condition[df.Boolean_condition.eq(1)]
    idx = isone.index
    grp = (isone != idx.to_series().diff().eq(1)).cumsum()
    df.loc[idx, 'Event_number'] = pd.Categorical(grp).codes + 1
    return df

def jez(df):
    mask0 = df.Boolean_condition.eq(0)
    mask2 = df.Boolean_condition.ne(df.Boolean_condition.shift(1))
    df['Event_number'] = (mask2 & mask0).cumsum().add(1).mask(mask0)
    return (df)

def jez1(df):
    mask0 = ~df.Boolean_condition
    mask2 = df.Boolean_condition.ne(df.Boolean_condition.shift(1))
    df['Event_number'] = (mask2 & mask0).cumsum().add(1).mask(mask0)
    return (df)

In [68]: %timeit (jez1(df))
100 loops, best of 3: 6.45 ms per loop

In [69]: %timeit (nick(df1))
100 loops, best of 3: 12 ms per loop

In [70]: %timeit (jez(df2))
100 loops, best of 3: 5.34 ms per loop

Answer 3

自定義函數可以解決問題。 這是Matlab代碼中的一個解決方案：

Boolean_condition = [1 1 0 1 1 1 0 0 1 0];
Event_number = [NA NA NA NA NA NA NA NA NA NA];
loop_event_number = 1;

for timestamp=1:10
if Boolean_condition(timestamp)==1
Event_number(timestamp) = loop_event_number;
last_event_number = loop_event_number;
else
loop_event_number = last_event_number +1;
end
end

% Event_number = 1 1 NA 2 2 2 NA NA 3 NA

Answer 4

這應該可以工作，但對於很長的df可能有點慢。

df = pd.concat([df,pd.Series([0]*len(df), name = '2')], axis = 1)
if df.iloc[0,1] == 1:
        counter = 1
        df.iloc[0, 2] = counter
    else:
        counter = 0
        df.iloc[0,2] = 0
    previous = df.iloc[0,1]
    for y,x in df.iloc[1:,].iterrows():
        print(y)
        if x[1] == 1 and previous == 1:
            previous = x[1]
            df.iloc[y, 2] = counter
        if x[1] == 0:
            previous = x[1]
            df.iloc[y,2] = 0
        if x[1] == 1 and previous == 0:
            counter += 1
            previous = x[1]
            df.iloc[y,2] = counter

如何計算在pandas數據幀中滿足布爾條件的時間間隔數？

問題描述

4 個解決方案

解決方案1
3 2017-01-19 10:18:09

解決方案2
3 已采納 2017-01-19 12:11:54

解決方案3
1 2017-01-19 10:44:23

解決方案4
1 2017-01-19 11:15:24

如何計算在pandas數據幀中滿足布爾條件的時間間隔數？

問題描述

4 個解決方案

解決方案1 3 2017-01-19 10:18:09

解決方案2 3 已采納 2017-01-19 12:11:54

解決方案3 1 2017-01-19 10:44:23

解決方案4 1 2017-01-19 11:15:24

解決方案1
3 2017-01-19 10:18:09

解決方案2
3 已采納 2017-01-19 12:11:54

解決方案3
1 2017-01-19 10:44:23

解決方案4
1 2017-01-19 11:15:24