cost 289 ms
使用 MultiIndex 缓慢搜索大型 DataFrame - Searching a large DataFrame with a MultiIndex slow

我有一个大的 Pandas DataFrame(~800M 行),我在一个MultiIndex上建立了索引,它有两个索引,一个 int 和一个日期。 我想根据我拥有的整数列表(大约 10k)检索 DataFrame 行的子集。 整数与多索引的第一个索引匹配。 多索引是唯一的。 我尝试的第一件事是对 ...

使用索引进行查询优化 - Query Optimization with Indexes

我需要一些帮助来优化这个 WordPress/WooCommerce 查询: 我不明白EXPLAIN告诉我什么,需要一些关于如何加快速度的指导。 有人可以描述EXPLAIN响应中的内容表明我的问题在哪里以及在哪里寻找答案吗? ID 选择类型桌子分区类型可能的键钥匙密钥长度参考行过滤额外的 1个基 ...

多索引中跨并行层次结构级别的自定义聚合 - Custom Aggregation Across Parallel Hierarchy Levels in a Multi-Index

我有一个分层组织的 dataframe。 考虑一下: 我需要做的是创建一个新的 dataframe,它通过用单个值替换相应的 (indexlevel2) 来折叠中间级别 (indexlevel1),该值是曾经包含在 indexlevel1 中的两个级别中的最小值。 可能更容易说明我的意思 - 上面示 ...

如何有效地对大型 df 中最后一个多指标级别的子集求和? - How to efficiently sum over subset of last multi-index level in large df?

[使用 python 3.9] 我有一个具有以下程式化结构的大型 df: 原来的df有很多这样的block并排,只有最底层的labels是重复的。 我想对底层的一个子集求和,删除求和的列并将它们替换为具有总和的列,如下所示: 我可以通过进入每个块和每个中间层来实现这一点,对列的子集进行求和,然后 ...

如何找到多索引 dataframe 的两个键之间的重叠行数? - How to find the overlapping count of rows between two keys of a multindex dataframe?

两个数据帧已与具有相同索引的不同键(多索引数据帧)连接。 日期是索引。 每个 dataframe 中有不同的产品作为列名称及其价格。 我基本上必须找到这两个数据帧和重叠周期数之间的相关性。 相关性已完成,但如何找到每个 dataframe 中每个产品的重叠行数,并生成 dataframe 的结果, ...

无法使用 MultiIndex 列从 Dataframe 中删除行 - Can't Delete Row from Dataframe with MultiIndex Column

我创建了一个 DataFrame,在列中有一个 MultiIndex,我想创建一个空的 DataFrame 并迭代地添加列和值。 我希望结构看起来像这样(我可能决定稍后更改行标签,但现在我使用默认行索引): 我已经成功地创建了具有 1 列的 DataFrame,但第一行的值为 NaN(我认为这是因为 ...

为什么在使用 MultiIndex(但不是简单索引)时会出现 SettingWithCopyWarning? - Why do I get a SettingWithCopyWarning when using a MultiIndex (but not with a simple index)?

以下代码按预期工作,没有任何警告。 我创建了一个 dataframe,使用.loc从它创建了两个子数据帧,给它们相同的索引,然后分配给其中一个的列。import numpy as np import pandas as pd df = pd.DataFrame(np.random.randn(2 ...

pandas multiindex select 一个 header value 另一个 header 和一个级别 - pandas multiindex select one header value according to another header and a level

我有这个带有多个标题的 dataframe 我读它作为 我想根据0级值得到第一级的值。 我试图让自己清楚。 我想 select 列'01090BL'(标题级别 0),然后我想获得对应于级别 1(名为 0)的值。 我尝试了以下操作: 标题之间的一种矩阵。 我得到一个错误。 我认为我需要多索引处理方面的 ...

根据 header 值删除列 () - drop columns according to header value ()

我有这个带有多个标题的 dataframe 我读这个作为 我想删除列 01090BL、01100MS。 在主程序中,我的想法是列出我要删除的列,然后删除它们。 因此,我做了如下操作: 但我收到以下错误: 因此,我做了以下事情: 但我得到一个空的 dataframe。我错过了什么? 谢谢 ...

pandas 读取 dataframe 多标头值 - pandas read dataframe multi-header values

我有这个带有多个标题的 dataframe 我读这个作为 我想提取与名为“lat”和“long”的行相关的值。 一种简单的方法是分两步读取 dataframe。 换句话说,这个想法可能有两个数据帧。 我不喜欢这个,因为它不是很优雅,而且似乎没有利用 pandas 的潜力。 我相信我可以使用一些与多索 ...

Pandas - 将新的计算列添加到 MultiIndex 列 dataframe - Pandas - Add a new calculated column to a MultiIndex column dataframe

我有一个具有以下结构的 Dataframe: 我想根据值“X”** 2 + “Y”** 2 为每个节点添加一个新的计算列“Z”。 以下实现了预期的结果: 有没有更直接的方法来实现这一目标? 例如,使用df.xs到 select 所需的列数据 eg df.xs("X", axis=1, level= ...

如何根据条件在具有多索引的 DataFrame 中更改列内的值 - How to change values within a column, based on a condition, in a DataFrame with multi-index

我当前的 DF 看起来像: 我的 DF 有很多行,我需要根据 user_id 是否在名为“用户”的特定集合中更改第 2 列的值。 我正在使用以下代码,但它似乎不起作用。 我的代码: 当我检查“用户”集中存在的特定 user_id 时,它显示为“NaN”。 这是否意味着代码无效? 如果 user_id ...

如何在 pandas 中重新索引基于日期时间的多重索引 - How to reindex a datetime-based multiindex in pandas

我有一个 dataframe,它计算每个用户每天发生事件的次数。 用户每天可能有 0 个事件,并且(因为该表是原始事件日志的汇总)dataframe 中缺少具有 0 个事件的行。我想添加这些缺失的行并按周对数据进行分组,以便每个用户都有每周一次(如果适用,包括 0 次)。 这是我的输入示例:impo ...

Pandas / Matplotlib bar plot with multi index dataframe - Pandas / Matplotlib bar plot with multi index dataframe

我有一个排序的多索引 pandas 数据框,我需要在条形图中显示 plot。 我的数据框。 我要么还没有找到解决方案,要么简单的解决方案不存在,但我需要 plot 此数据的条形图,其中Content和Category位于 x 轴上, Installs量为高度。 简单来说,我需要展示每个条形由什么组 ...

从 pandas 多索引中删除冗余级别 - Dropping redundant levels from a pandas multiindex

我有一个 Pandas 数据框,其中包含一个经过过滤(交互式)的多索引。 生成的过滤帧在索引中具有冗余级别,其中所有条目对于所有条目都是相同的。 有没有办法从索引中删除这些级别? 有一个像这样的数据框: 我想降低“二级”级别,但没有指定级别,因为我事先不知道哪个级别是多余的。 像(组成 functi ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM