![](/img/trans.png)
[英]Python pandas equivalent to R's group_by, mutate, and ifelse
[英]R group_by() + rleid() equivalent in Python
我在 Python 中有以下數據框:
df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]),
np.repeat([1, 2, 3], [2, 2, 2])]),
'obj': list('AB' * 6),
'var': [1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1]})
首先,確定各組內object
,我想給ID,以獨特的運行measurement_id
和var
列。 如果這些列的任何值發生變化,它就會開始新的運行,應該分配新的 id。 所以
df['rleid_output'] = [1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 3]
然后,對於rleid_output
定義的每個組,我想檢查運行持續了多少分鍾( min
列)給我expected_output
列:
df['expected_output'] = [2, 2, 2, 2, 1, 1, 2, 3, 2, 3, 1, 3]
如果是 R,我會按以下步驟進行:
df <- data.frame(measurement_id = rep(1:2, each = 6),
min = rep(rep(1:3, each = 2), 2),
object = rep(LETTERS[1:2], 6),
var = c(1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1))
df %>%
group_by(object) %>%
mutate(rleid = data.table::rleid(measurement_id, var)) %>%
group_by(object, rleid) %>%
mutate(expected_output = last(min) - first(min) + 1)
所以我需要的主要是 R data.table::rleid
等價物,它可以與 Python pd.DataFrame.groupby
子句一起使用。 任何想法如何解決這個問題?
@Edit:新的、更新的數據框示例:
df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]),
np.repeat([1, 2, 3], [2, 2, 2])]),
'obj': list('AB' * 6),
'var': [1, 2, 2, 2, 1, 1, 2, 1, 2, 1, 1, 1]})
df['rleid_output'] = [1, 1, 2, 1, 3, 2, 4, 3, 4, 3, 5, 3]
df['expected_output'] = [1, 2, 1, 2, 1, 1, 2, 3, 2, 3, 1, 3]
更新答案
問題是每組measurement_id, obj, var
中的min
列要保持順序。 我們可以在measurement_id, obj, var
上按組檢查這一點,然后檢查min
列中的差異是否大於1
。 如果是這樣,我們將其標記為expected_output
的唯一持續時間:
df['grouper'] = (df.groupby(['measurement_id', 'obj', 'var'])['min']
.apply(lambda x: x.diff().fillna(1).eq(1))
)
df['expected_output'] = (
df.groupby(['measurement_id', 'obj', 'var'])['grouper'].transform('sum').astype(int)
)
df = df.drop(columns='grouper')
measurement_id min obj var expected_output
0 1 1 A 1 1
1 1 1 B 2 2
2 1 2 A 2 1
3 1 2 B 2 2
4 1 3 A 1 1
5 1 3 B 1 1
6 2 1 A 2 2
7 2 1 B 1 3
8 2 2 A 2 2
9 2 2 B 1 3
10 2 3 A 1 1
11 2 3 B 1 3
舊答案,遵循 OP 的邏輯
我們可以通過實現這個GroupBy.diff
讓你rleid_output
,基本上是一個唯一的標識符每次var
每個變化measurement_id
& obj
之后使用GroupBy.nunique
來測量minutes
:
rleid_output = df.groupby(['measurement_id', 'obj'])['var'].diff().abs().bfill()
df['expected_output'] = (df.groupby(['measurement_id', 'obj', rleid_output])['min']
.transform('nunique'))
measurement_id min obj var expected_output
0 1 1 A 1 2
1 1 1 B 2 2
2 1 2 A 1 2
3 1 2 B 2 2
4 1 3 A 2 1
5 1 3 B 1 1
6 2 1 A 2 2
7 2 1 B 1 3
8 2 2 A 2 2
9 2 2 B 1 3
10 2 3 A 1 1
11 2 3 B 1 3
為了模仿 R rleid
函數的行為,可以首先創建一個人工列,檢查當前值與前一個值相比是否發生了變化。 在這種情況下,我們應該在分組var
系列上執行此操作:
var_grpd = df.groupby(['measurement_id', 'obj'])['var']
df['tmp'] = (var_grpd.shift(0) != var_grpd.shift(1))
然后,我們可以使用這個人工tmp
列來獲取rleid_output2
。 之后,不再需要tmp
列。
df['rleid_output2'] = df.groupby('obj')['tmp'].cumsum().astype(int)
df.drop('tmp', axis = 1, inplace = True)
最后,為了檢查var
value 持續了多少分鍾,我們可以計算一組內最后一分鍾和第一分鍾之間的差異。
df['expected_output2'] = df.groupby(['obj', 'rleid_output2'])['min'] \
.transform(lambda x: x.iat[-1] - x.iat[0] + 1)
.iat
類似於.iloc
但允許我們訪問DataFrame
或Series
單個值。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.