返回包含特定值的多索引 df 中的行

Question

我有以下多索引 df：

         pageid
sid vid
 1  ABC     dog
    ABC     cat
    ABC     fish
 2  DEF     pig
    DEF     cat
    DEF     fish
 3  GHI     pig
    GHI     cat
    GHI     dog

我想保留只包含一些值的子索引——在這個例子中我將使用 dog。

前：

        pageid
sid vid
 1  ABC     dog
    ABC     cat
    ABC     fish
 2  DEF     pig
    DEF     cat
    DEF     fish
 3  GHI     pig
    GHI     cat
    GHI     dog

After（僅包含帶有值 dog 的pageid sid ）

        pageid
sid vid
 1  ABC     dog
    ABC     cat
    ABC     fish
 3
    GHI     pig
    GHI     cat
    GHI     dog

Answer 1

這里：

df.groupby('sid').filter(lambda x: x['pageid'].eq('dog').sum() > 0)

它是做什么的：

通過 ID 獲取子 DF 的列表
僅獲取其中pageid計數大於0那些組

或者像@db 建議的那樣：

df.loc[df['pageid'].eq('dog').groupby('sid').transform(any)]

有什么作用：

創建一個掩碼，如果pageId為dog則每行為True ，否則為False
按sid對屏蔽的行進行分組
將每組屏蔽行轉換為一個屏蔽行
使用該掩碼從數據框中獲取行組

返回包含特定值的多索引 df 中的行

問題描述

1 個解決方案

解決方案1
1 已采納 2021-11-10 18:32:16

返回包含特定值的多索引 df 中的行

問題描述

1 個解決方案

解決方案1 1 已采納 2021-11-10 18:32:16

解決方案1
1 已采納 2021-11-10 18:32:16