R group_by() + rleid() 在 Python 中等效

Question

我在 Python 中有以下數據框：

df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
                         'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]), 
                                                np.repeat([1, 2, 3], [2, 2, 2])]),
                         'obj': list('AB' * 6),
                         'var': [1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1]})

首先，確定各組內object ，我想給ID，以獨特的運行measurement_id和var列。 如果這些列的任何值發生變化，它就會開始新的運行，應該分配新的 id。 所以

df['rleid_output'] = [1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 3]

然后，對於rleid_output定義的每個組，我想檢查運行持續了多少分鍾（ min列）給我expected_output列：

df['expected_output'] = [2, 2, 2, 2, 1, 1, 2, 3, 2, 3, 1, 3]

如果是 R，我會按以下步驟進行：

df <- data.frame(measurement_id = rep(1:2, each = 6),
           min = rep(rep(1:3, each = 2), 2),
           object = rep(LETTERS[1:2], 6),
           var = c(1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1))
df %>% 
  group_by(object) %>% 
  mutate(rleid = data.table::rleid(measurement_id, var)) %>% 
  group_by(object, rleid) %>% 
  mutate(expected_output = last(min) - first(min) + 1)

所以我需要的主要是 R data.table::rleid等價物，它可以與 Python pd.DataFrame.groupby子句一起使用。 任何想法如何解決這個問題？

@Edit：新的、更新的數據框示例：

df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
                         'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]), 
                                                np.repeat([1, 2, 3], [2, 2, 2])]),
                         'obj': list('AB' * 6),
                         'var': [1, 2, 2, 2, 1, 1, 2, 1, 2, 1, 1, 1]})
df['rleid_output'] = [1, 1, 2, 1, 3, 2, 4, 3, 4, 3, 5, 3]
df['expected_output'] = [1, 2, 1, 2, 1, 1, 2, 3, 2, 3, 1, 3]

Answer 1

更新答案

問題是每組measurement_id, obj, var中的min列要保持順序。 我們可以在measurement_id, obj, var上按組檢查這一點，然后檢查min列中的差異是否大於1 。 如果是這樣，我們將其標記為expected_output的唯一持續時間：

df['grouper'] = (df.groupby(['measurement_id', 'obj', 'var'])['min']
                 .apply(lambda x: x.diff().fillna(1).eq(1))
                )

df['expected_output'] = (
    df.groupby(['measurement_id', 'obj', 'var'])['grouper'].transform('sum').astype(int)
)

df = df.drop(columns='grouper')

    measurement_id  min obj  var  expected_output
0                1    1   A    1                1
1                1    1   B    2                2
2                1    2   A    2                1
3                1    2   B    2                2
4                1    3   A    1                1
5                1    3   B    1                1
6                2    1   A    2                2
7                2    1   B    1                3
8                2    2   A    2                2
9                2    2   B    1                3
10               2    3   A    1                1
11               2    3   B    1                3

舊答案，遵循 OP 的邏輯

我們可以通過實現這個GroupBy.diff讓你rleid_output ，基本上是一個唯一的標識符每次var每個變化measurement_id ＆ obj

之后使用GroupBy.nunique來測量minutes ：

rleid_output = df.groupby(['measurement_id', 'obj'])['var'].diff().abs().bfill()
df['expected_output'] = (df.groupby(['measurement_id', 'obj', rleid_output])['min']
                         .transform('nunique'))

    measurement_id  min obj  var  expected_output
0                1    1   A    1                2
1                1    1   B    2                2
2                1    2   A    1                2
3                1    2   B    2                2
4                1    3   A    2                1
5                1    3   B    1                1
6                2    1   A    2                2
7                2    1   B    1                3
8                2    2   A    2                2
9                2    2   B    1                3
10               2    3   A    1                1
11               2    3   B    1                3

Answer 2

為了模仿 R rleid函數的行為，可以首先創建一個人工列，檢查當前值與前一個值相比是否發生了變化。 在這種情況下，我們應該在分組var系列上執行此操作：

var_grpd = df.groupby(['measurement_id', 'obj'])['var']
df['tmp'] = (var_grpd.shift(0) != var_grpd.shift(1))

然后，我們可以使用這個人工tmp列來獲取rleid_output2 。 之后，不再需要tmp列。

df['rleid_output2'] = df.groupby('obj')['tmp'].cumsum().astype(int)
df.drop('tmp', axis = 1, inplace = True)

最后，為了檢查var value 持續了多少分鍾，我們可以計算一組內最后一分鍾和第一分鍾之間的差異。

df['expected_output2'] = df.groupby(['obj', 'rleid_output2'])['min'] \
                           .transform(lambda x: x.iat[-1] - x.iat[0] + 1)

.iat類似於.iloc但允許我們訪問DataFrame或Series單個值。

R group_by() + rleid() 在 Python 中等效

問題描述

2 個解決方案

解決方案1
3 2019-12-27 13:49:04

解決方案2
1 2019-12-27 20:38:04

R group_by() + rleid() 在 Python 中等效

問題描述

2 個解決方案

解決方案1 3 2019-12-27 13:49:04

解決方案2 1 2019-12-27 20:38:04

解決方案1
3 2019-12-27 13:49:04

解決方案2
1 2019-12-27 20:38:04