如何将一个 MultiIndex DataFrame 与另一个 MultiIndex 切片

Question

我有一个 pandas dataframe 和 3 级 MultiIndex。 我正在尝试根据对应于两个级别的值列表提取此 dataframe 的行。

我有这样的事情：

ix = pd.MultiIndex.from_product([[1, 2, 3], ['foo', 'bar'], ['baz', 'can']], names=['a', 'b', 'c'])
data = np.arange(len(ix))
df = pd.DataFrame(data, index=ix, columns=['hi'])
print(df)

           hi
a b   c      
1 foo baz   0
      can   1
  bar baz   2
      can   3
2 foo baz   4
      can   5
  bar baz   6
      can   7
3 foo baz   8
      can   9
  bar baz  10
      can  11

现在我想获取索引级别“b”和“c”在此索引中的所有行：

ix_use = pd.MultiIndex.from_tuples([('foo', 'can'), ('bar', 'baz')], names=['b', 'c'])

即在水平b和c中分别具有('foo', 'can')或('bar', 'baz')的hi值： (1, 2, 5, 6, 9, 10) 。

所以我想在第一层取一个slice(None) ，然后在第二层和第三层提取特定的元组。

最初我认为将多索引 object 传递给 .loc 会提取我想要的值/级别，但这不起作用。 做这样的事情最好的方法是什么？

Answer 1

这是获取切片的一种方法：

df.sort_index(inplace=True)
idx = pd.IndexSlice
df.loc[idx[:, ('foo','bar'), 'can'], :]

屈服

           hi
a b   c      
1 bar can   3
  foo can   1
2 bar can   7
  foo can   5
3 bar can  11
  foo can   9

请注意，您可能需要先对MultiIndex排序，然后才能对其进行切片。 好了，熊猫足以警告您是否需要这样做：

KeyError: 'MultiIndex Slicing requires the index to be fully lexsorted tuple len (3), lexsort depth (1)'

您可以在文档中阅读更多有关如何使用切片器的信息

如果由于某种原因不能使用切片器，则可以使用.isin()方法获得相同的切片：

df[df.index.get_level_values('b').isin(ix_use.get_level_values(0)) & df.index.get_level_values('c').isin(ix_use.get_level_values(1))]

这显然不是那么简洁。

更新：

对于您在此处更新的条件，可以采用以下方法：

cond1 = (df.index.get_level_values('b').isin(['foo'])) & (df.index.get_level_values('c').isin(['can']))
cond2 = (df.index.get_level_values('b').isin(['bar'])) & (df.index.get_level_values('c').isin(['baz']))
df[cond1 | cond2]

生产：

           hi
a b   c      
1 foo can   1
  bar baz   2
2 foo can   5
  bar baz   6
3 foo can   9
  bar baz  10

Answer 2

我会像在此Q＆A中一样推荐query()方法。

简单地使用它，我认为这是一种更自然的表达方式：

In [27]: df.query("(b == 'foo' and c == 'can') or (b == 'bar' and c == 'baz')")
Out[27]: 
           hi
a b   c      
1 foo can   1
  bar baz   2
2 foo can   5
  bar baz   6
3 foo can   9
  bar baz  10

Answer 3

我发现这不起作用很有趣：

In [45]: df.loc[(idx[:, 'foo', 'can'], idx[:, 'bar', 'baz']), ]
Out[45]: 
           hi
a b   c      
1 bar baz   2
      can   3
  foo baz   0
      can   1
2 bar baz   6
      can   7
  foo baz   4
      can   5
3 bar baz  10
      can  11
  foo baz   8
      can   9

某种程度上，它看起来像“应该”。 无论如何，这是一个合理的解决方法：

让我们假设你想通过切片在另一个索引中的元组DataFrame （因为它听起来像他们可能是你的情况！）。

In [53]: ix_use = pd.MultiIndex.from_tuples([('foo', 'can'), ('bar', 'baz')], names=['b', 'c'])
In [55]: other = pd.DataFrame(dict(a=1), index=ix_use)
In [56]: other
Out[56]: 
         a
b   c     
foo can  1
bar baz  1

现在，通过other索引对df进行切片，我们可以使用.loc / .ix允许您给出元组列表的事实（请参阅此处的最后一个示例）。

首先，让我们构建所需的元组列表：

In [13]: idx = [(x, ) + y for x in df.index.levels[0] for y in other.index.values]
In [14]: idx
Out[14]: 
[(1, 'foo', 'can'),
 (1, 'bar', 'baz'),
 (2, 'foo', 'can'),
 (2, 'bar', 'baz'),
 (3, 'foo', 'can'),
 (3, 'bar', 'baz')]

现在我们可以将此列表传递给.ix或.loc ：

In [17]: df.ix[idx]
Out[17]: 
           hi
a b   c      
1 foo can   1
  bar baz   2
2 foo can   5
  bar baz   6
3 foo can   9
  bar baz  10

Answer 4

import itertools
import pandas as pd
import numpy as np
from pandas import DataFrame as df


ix = pd.MultiIndex.from_product([[1, 2, 3], ['foo', 'bar'], ['baz', 'can']], names=['a', 'b', 'c'])
data = np.arange(len(ix))
df = pd.DataFrame(data, index=ix, columns=['hi'])
print(df)

"""
           hi
a b   c      
1 foo baz   0
      can   1
  bar baz   2
      can   3
2 foo baz   4
      can   5
  bar baz   6
      can   7
3 foo baz   8
      can   9
  bar baz  10
      can  11

"""
a = (df.index.get_level_values('b') =='foo')
b = (df.index.get_level_values('c') =='can')
ab = (a & b)
dab = df[a & b]
print(dab)

"""
          hi
a b   c      
1 foo can   1
2 foo can   5
3 foo can   9
"""
a1 = (df.index.get_level_values('b') =='bar')
b1 = (df.index.get_level_values('c') =='baz')
ab1 = (a1 & b1)
dab1 = df[a1 & b1]
print(dab1)
"""
           hi
a b   c      
1 bar baz   2
2 bar baz   6
3 bar baz  10
"""

abab = df[ab | ab1]
print(abab)
"""
           hi
a b   c      
1 foo can   1
  bar baz   2
2 foo can   5
  bar baz   6
3 foo can   9
  bar baz  10
"""

如何将一个 MultiIndex DataFrame 与另一个 MultiIndex 切片

问题描述

4 个解决方案

解决方案1
20 已采纳 2015-03-25 21:51:16

解决方案2
2 2016-11-26 18:00:46

解决方案3
0 2015-08-12 16:38:50

解决方案4
0 2023-01-17 10:16:19

如何将一个 MultiIndex DataFrame 与另一个 MultiIndex 切片

问题描述

4 个解决方案

解决方案1 20 已采纳 2015-03-25 21:51:16

解决方案2 2 2016-11-26 18:00:46

解决方案3 0 2015-08-12 16:38:50

解决方案4 0 2023-01-17 10:16:19

解决方案1
20 已采纳 2015-03-25 21:51:16

解决方案2
2 2016-11-26 18:00:46

解决方案3
0 2015-08-12 16:38:50

解决方案4
0 2023-01-17 10:16:19