通過MultiIndex級別或子級切片pandas DataFrame

Question

受到這個答案的啟發以及對這個問題缺乏簡單的回答，我發現自己寫了一些語法糖，讓生活更容易通過MultiIndex級別進行過濾。

def _filter_series(x, level_name, filter_by):
    """
    Filter a pd.Series or pd.DataFrame x by `filter_by` on the MultiIndex level
    `level_name`

    Uses `pd.Index.get_level_values()` in the background. `filter_by` is either
    a string or an iterable.
    """
    if isinstance(x, pd.Series) or isinstance(x, pd.DataFrame):
        if type(filter_by) is str:
            filter_by = [filter_by]

        index = x.index.get_level_values(level_name).isin(filter_by)
        return x[index]
    else:
        print "Not a pandas object"

但是，如果我知道熊貓開發團隊（我開始，慢慢地！）已經有一個很好的方法來做到這一點，我只是不知道它是什么！

我對嗎？

Answer 1

使用master / 0.14中的新型多索引切片器（即將發布）非常容易，請參見此處

有一個公開的問題，使這個語法更容易（它不難做），見這里像這樣的東西： df.loc[{ 'third' : ['C1','C3'] }]我認為是合理的

這是你如何做到的（需要master / 0.14）：

In [2]: def mklbl(prefix,n):
   ...:     return ["%s%s" % (prefix,i)  for i in range(n)]
   ...: 


In [11]: index = MultiIndex.from_product([mklbl('A',4),
mklbl('B',2),
mklbl('C',4),
mklbl('D',2)],names=['first','second','third','fourth'])

In [12]: columns = ['value']

In [13]: df = DataFrame(np.arange(len(index)*len(columns)).reshape((len(index),len(columns))),index=index,columns=columns).sortlevel()

In [14]: df
Out[14]: 
                           value
first second third fourth       
A0    B0     C0    D0          0
                   D1          1
             C1    D0          2
                   D1          3
             C2    D0          4
                   D1          5
             C3    D0          6
                   D1          7
      B1     C0    D0          8
                   D1          9
             C1    D0         10
                   D1         11
             C2    D0         12
                   D1         13
             C3    D0         14
                   D1         15
A1    B0     C0    D0         16
                   D1         17
             C1    D0         18
                   D1         19
             C2    D0         20
                   D1         21
             C3    D0         22
                   D1         23
      B1     C0    D0         24
                   D1         25
             C1    D0         26
                   D1         27
             C2    D0         28
                   D1         29
             C3    D0         30
                   D1         31
A2    B0     C0    D0         32
                   D1         33
             C1    D0         34
                   D1         35
             C2    D0         36
                   D1         37
             C3    D0         38
                   D1         39
      B1     C0    D0         40
                   D1         41
             C1    D0         42
                   D1         43
             C2    D0         44
                   D1         45
             C3    D0         46
                   D1         47
A3    B0     C0    D0         48
                   D1         49
             C1    D0         50
                   D1         51
             C2    D0         52
                   D1         53
             C3    D0         54
                   D1         55
      B1     C0    D0         56
                   D1         57
             C1    D0         58
                   D1         59
                             ...

[64 rows x 1 columns]

在所有級別創建索引器，選擇所有條目

In [15]: indexer = [slice(None)]*len(df.index.names)

讓我們關心的關卡只有我們關心的條目

In [16]: indexer[df.index.names.index('third')] = ['C1','C3']

選擇它（重要的是這是一個元組！）

In [18]: df.loc[tuple(indexer),:]
Out[18]: 
                           value
first second third fourth       
A0    B0     C1    D0          2
                   D1          3
             C3    D0          6
                   D1          7
      B1     C1    D0         10
                   D1         11
             C3    D0         14
                   D1         15
A1    B0     C1    D0         18
                   D1         19
             C3    D0         22
                   D1         23
      B1     C1    D0         26
                   D1         27
             C3    D0         30
                   D1         31
A2    B0     C1    D0         34
                   D1         35
             C3    D0         38
                   D1         39
      B1     C1    D0         42
                   D1         43
             C3    D0         46
                   D1         47
A3    B0     C1    D0         50
                   D1         51
             C3    D0         54
                   D1         55
      B1     C1    D0         58
                   D1         59
             C3    D0         62
                   D1         63

[32 rows x 1 columns]

Answer 2

我實際上贊成了joris的答案......但不幸的是，他提到的重構並沒有在0.14發生，也沒有在0.17中發生。 所以暫時讓我建議一個快速而骯臟的解決方案（顯然來自傑夫的解決方案）：

def filter_by(df, constraints):
    """Filter MultiIndex by sublevels."""
    indexer = [constraints[name] if name in constraints else slice(None)
               for name in df.index.names]
    return df.loc[tuple(indexer)] if len(df.shape) == 1 else df.loc[tuple(indexer),]

pd.Series.filter_by = filter_by
pd.DataFrame.filter_by = filter_by

......用作

df.filter_by({'level_name' : value})

其中value可以是單個值，也可以是列表，切片......

（未經測試使用Panels和更高維度的元素，但我確實希望它可以工作）

Answer 3

你有filter方法可以做這樣的事情。 例如，在鏈接的 SO問題中詢問的示例：

In [188]: df.filter(like='0630', axis=0)
Out[188]: 
                      sales        cogs    net_pft
STK_ID RPT_Date                                   
876    20060630   857483000   729541000   67157200
       20070630  1146245000  1050808000  113468500
       20080630  1932470000  1777010000  133756300
2254   20070630   501221000   289167000  118012200

過濾方法重構的時刻（在即將到來的0.14），和一個level的關鍵字將被添加（因為現在如果同樣的標簽出現在不同層次的索引，你可以有一個問題）。

通過MultiIndex級別或子級切片pandas DataFrame

問題描述

3 個解決方案

解決方案1
4 2014-04-10 12:05:53

解決方案2
4 2015-10-23 08:41:57

解決方案3
1 2014-04-10 12:04:22

通過MultiIndex級別或子級切片pandas DataFrame

問題描述

3 個解決方案

解決方案1 4 2014-04-10 12:05:53

解決方案2 4 2015-10-23 08:41:57

解決方案3 1 2014-04-10 12:04:22

解決方案1
4 2014-04-10 12:05:53

解決方案2
4 2015-10-23 08:41:57

解決方案3
1 2014-04-10 12:04:22