标签[multi-index] - 堆栈内存溢出

使用 MultiIndex 缓慢搜索大型 DataFrame - Searching a large DataFrame with a MultiIndex slow

我有一个大的 Pandas DataFrame（~800M 行），我在一个MultiIndex上建立了索引，它有两个索引，一个 int 和一个日期。我想根据我拥有的整数列表（大约 10k）检索 DataFrame 行的子集。整数与多索引的第一个索引匹配。多索引是唯一的。我尝试的第一件事是对 ...

按多个元组切片 MultiIndex - Slice MultiIndex by multiple tuples

我有一个具有多个索引级别的 DataFrame。我通过选择除最后一个级别之外的所有级别的多个组合来定义一些子集。然后我想用那个子集对原始的 DataFrame 进行切片，但我找不到方法。最好是看一个简单的例子：现在我想要df中的所有行 where ( a , b ) in sel ，在这种 ...

使用索引进行查询优化 - Query Optimization with Indexes

我需要一些帮助来优化这个 WordPress/WooCommerce 查询：我不明白EXPLAIN告诉我什么，需要一些关于如何加快速度的指导。有人可以描述EXPLAIN响应中的内容表明我的问题在哪里以及在哪里寻找答案吗？ ID 选择类型桌子分区类型可能的键钥匙密钥长度参考行过滤额外的 1个基 ...

多索引中跨并行层次结构级别的自定义聚合 - Custom Aggregation Across Parallel Hierarchy Levels in a Multi-Index

我有一个分层组织的 dataframe。考虑一下：我需要做的是创建一个新的 dataframe，它通过用单个值替换相应的 (indexlevel2) 来折叠中间级别 (indexlevel1)，该值是曾经包含在 indexlevel1 中的两个级别中的最小值。可能更容易说明我的意思 - 上面示 ...

如何有效地对大型 df 中最后一个多指标级别的子集求和？ - How to efficiently sum over subset of last multi-index level in large df?

[使用 python 3.9] 我有一个具有以下程式化结构的大型 df：原来的df有很多这样的block并排，只有最底层的labels是重复的。我想对底层的一个子集求和，删除求和的列并将它们替换为具有总和的列，如下所示：我可以通过进入每个块和每个中间层来实现这一点，对列的子集进行求和，然后 ...

如何找到多索引 dataframe 的两个键之间的重叠行数？ - How to find the overlapping count of rows between two keys of a multindex dataframe?

两个数据帧已与具有相同索引的不同键（多索引数据帧）连接。日期是索引。每个 dataframe 中有不同的产品作为列名称及其价格。我基本上必须找到这两个数据帧和重叠周期数之间的相关性。相关性已完成，但如何找到每个 dataframe 中每个产品的重叠行数，并生成 dataframe 的结果， ...

如何在多索引中插入缺失的行 - How to insert missing rows in multi-index

我有一个 dataframe 看起来像这样我想为缺少月份的公用事业-州组合创建新行。所以新的 dataframe 看起来像这样我知道我可以使用 MultiIndex 然后 reindex ，但是使用 from_product() 方法会导致原始 df 中不存在实用程序状态组合（例如，我不想要实 ...

无法使用 MultiIndex 列从 Dataframe 中删除行 - Can't Delete Row from Dataframe with MultiIndex Column

我创建了一个 DataFrame，在列中有一个 MultiIndex，我想创建一个空的 DataFrame 并迭代地添加列和值。我希望结构看起来像这样（我可能决定稍后更改行标签，但现在我使用默认行索引）：我已经成功地创建了具有 1 列的 DataFrame，但第一行的值为 NaN（我认为这是因为 ...

为什么在使用 MultiIndex（但不是简单索引）时会出现 SettingWithCopyWarning？ - Why do I get a SettingWithCopyWarning when using a MultiIndex (but not with a simple index)?

以下代码按预期工作，没有任何警告。我创建了一个 dataframe，使用.loc从它创建了两个子数据帧，给它们相同的索引，然后分配给其中一个的列。import numpy as np import pandas as pd df = pd.DataFrame(np.random.randn(2 ...

pandas multiindex select 一个 header value 另一个 header 和一个级别 - pandas multiindex select one header value according to another header and a level

我有这个带有多个标题的 dataframe 我读它作为我想根据0级值得到第一级的值。我试图让自己清楚。我想 select 列'01090BL'（标题级别 0），然后我想获得对应于级别 1（名为 0）的值。我尝试了以下操作：标题之间的一种矩阵。我得到一个错误。我认为我需要多索引处理方面的 ...

根据 header 值删除列 () - drop columns according to header value ()

我有这个带有多个标题的 dataframe 我读这个作为我想删除列 01090BL、01100MS。在主程序中，我的想法是列出我要删除的列，然后删除它们。因此，我做了如下操作：但我收到以下错误：因此，我做了以下事情：但我得到一个空的 dataframe。我错过了什么？谢谢 ...

pandas 读取 dataframe 多标头值 - pandas read dataframe multi-header values

我有这个带有多个标题的 dataframe 我读这个作为我想提取与名为“lat”和“long”的行相关的值。一种简单的方法是分两步读取 dataframe。换句话说，这个想法可能有两个数据帧。我不喜欢这个，因为它不是很优雅，而且似乎没有利用 pandas 的潜力。我相信我可以使用一些与多索 ...

Boolean 使用多索引过滤不同长度 - Boolean filtering of different lengths with Multi Indexes

我正在尝试根据列值employ_start_date和索引employ_class过滤我的多索引数据df 。可以通过以下方式单独获得：我想根据这两个条件过滤df ，使其看起来类似于：但我得到ValueError: operands could not be broadcast together ...

如何在 pivot_table 操作后访问列（multiIndex 数据帧） - How to access the columns after pivot_table operation (multiIndex dataframes)

我最初有这个 dataframe： df = pd.DataFrame({'slide': [0, 0, 1, 1, 2, 2, 0, 0], 'time': [1673, 17892, 1132, 61730, 2323, 8491, ...

合并后列上的 Pandas 多索引 - Pandas multindex on column after merge

我创建了这个 dataframe：但我需要更改多索引列中的顺序。我需要这样的东西你可以帮帮我吗：）？ ...

Pandas - 将新的计算列添加到 MultiIndex 列 dataframe - Pandas - Add a new calculated column to a MultiIndex column dataframe

我有一个具有以下结构的 Dataframe：我想根据值“X”** 2 + “Y”** 2 为每个节点添加一个新的计算列“Z”。以下实现了预期的结果：有没有更直接的方法来实现这一目标？例如，使用df.xs到 select 所需的列数据 eg df.xs("X", axis=1, level= ...

如何根据条件在具有多索引的 DataFrame 中更改列内的值 - How to change values within a column, based on a condition, in a DataFrame with multi-index

我当前的 DF 看起来像：我的 DF 有很多行，我需要根据 user_id 是否在名为“用户”的特定集合中更改第 2 列的值。我正在使用以下代码，但它似乎不起作用。我的代码：当我检查“用户”集中存在的特定 user_id 时，它显示为“NaN”。这是否意味着代码无效？如果 user_id ...

如何在 pandas 中重新索引基于日期时间的多重索引 - How to reindex a datetime-based multiindex in pandas

我有一个 dataframe，它计算每个用户每天发生事件的次数。用户每天可能有 0 个事件，并且（因为该表是原始事件日志的汇总）dataframe 中缺少具有 0 个事件的行。我想添加这些缺失的行并按周对数据进行分组，以便每个用户都有每周一次（如果适用，包括 0 次）。这是我的输入示例：impo ...

Pandas / Matplotlib bar plot with multi index dataframe - Pandas / Matplotlib bar plot with multi index dataframe

我有一个排序的多索引 pandas 数据框，我需要在条形图中显示 plot。我的数据框。我要么还没有找到解决方案，要么简单的解决方案不存在，但我需要 plot 此数据的条形图，其中Content和Category位于 x 轴上， Installs量为高度。简单来说，我需要展示每个条形由什么组 ...

从 pandas 多索引中删除冗余级别 - Dropping redundant levels from a pandas multiindex

我有一个 Pandas 数据框，其中包含一个经过过滤（交互式）的多索引。生成的过滤帧在索引中具有冗余级别，其中所有条目对于所有条目都是相同的。有没有办法从索引中删除这些级别？有一个像这样的数据框：我想降低“二级”级别，但没有指定级别，因为我事先不知道哪个级别是多余的。像（组成 functi ...