我有一个大的 Pandas DataFrame(~800M 行),我在一个MultiIndex上建立了索引,它有两个索引,一个 int 和一个日期。 我想根据我拥有的整数列表(大约 10k)检索 DataFrame 行的子集。 整数与多索引的第一个索引匹配。 多索引是唯一的。 我尝试的第一件事是对 ...
我有一个大的 Pandas DataFrame(~800M 行),我在一个MultiIndex上建立了索引,它有两个索引,一个 int 和一个日期。 我想根据我拥有的整数列表(大约 10k)检索 DataFrame 行的子集。 整数与多索引的第一个索引匹配。 多索引是唯一的。 我尝试的第一件事是对 ...
我有一个具有多个索引级别的 DataFrame。 我通过选择除最后一个级别之外的所有级别的多个组合来定义一些子集。 然后我想用那个子集对原始的 DataFrame 进行切片,但我找不到方法。 最好是看一个简单的例子: 现在我想要df中的所有行 where ( a , b ) in sel ,在这种 ...
我需要一些帮助来优化这个 WordPress/WooCommerce 查询: 我不明白EXPLAIN告诉我什么,需要一些关于如何加快速度的指导。 有人可以描述EXPLAIN响应中的内容表明我的问题在哪里以及在哪里寻找答案吗? ID 选择类型桌子分区类型可能的键钥匙密钥长度参考行过滤额外的 1个基 ...
我有一个分层组织的 dataframe。 考虑一下: 我需要做的是创建一个新的 dataframe,它通过用单个值替换相应的 (indexlevel2) 来折叠中间级别 (indexlevel1),该值是曾经包含在 indexlevel1 中的两个级别中的最小值。 可能更容易说明我的意思 - 上面示 ...
[使用 python 3.9] 我有一个具有以下程式化结构的大型 df: 原来的df有很多这样的block并排,只有最底层的labels是重复的。 我想对底层的一个子集求和,删除求和的列并将它们替换为具有总和的列,如下所示: 我可以通过进入每个块和每个中间层来实现这一点,对列的子集进行求和,然后 ...
两个数据帧已与具有相同索引的不同键(多索引数据帧)连接。 日期是索引。 每个 dataframe 中有不同的产品作为列名称及其价格。 我基本上必须找到这两个数据帧和重叠周期数之间的相关性。 相关性已完成,但如何找到每个 dataframe 中每个产品的重叠行数,并生成 dataframe 的结果, ...
我有一个 dataframe 看起来像这样 我想为缺少月份的公用事业-州组合创建新行。 所以新的 dataframe 看起来像这样 我知道我可以使用 MultiIndex 然后 reindex ,但是使用 from_product() 方法会导致原始 df 中不存在实用程序状态组合(例如,我不想要实 ...
我创建了一个 DataFrame,在列中有一个 MultiIndex,我想创建一个空的 DataFrame 并迭代地添加列和值。 我希望结构看起来像这样(我可能决定稍后更改行标签,但现在我使用默认行索引): 我已经成功地创建了具有 1 列的 DataFrame,但第一行的值为 NaN(我认为这是因为 ...
以下代码按预期工作,没有任何警告。 我创建了一个 dataframe,使用.loc从它创建了两个子数据帧,给它们相同的索引,然后分配给其中一个的列。import numpy as np import pandas as pd df = pd.DataFrame(np.random.randn(2 ...
我有这个带有多个标题的 dataframe 我读它作为 我想根据0级值得到第一级的值。 我试图让自己清楚。 我想 select 列'01090BL'(标题级别 0),然后我想获得对应于级别 1(名为 0)的值。 我尝试了以下操作: 标题之间的一种矩阵。 我得到一个错误。 我认为我需要多索引处理方面的 ...
我有这个带有多个标题的 dataframe 我读这个作为 我想删除列 01090BL、01100MS。 在主程序中,我的想法是列出我要删除的列,然后删除它们。 因此,我做了如下操作: 但我收到以下错误: 因此,我做了以下事情: 但我得到一个空的 dataframe。我错过了什么? 谢谢 ...
我有这个带有多个标题的 dataframe 我读这个作为 我想提取与名为“lat”和“long”的行相关的值。 一种简单的方法是分两步读取 dataframe。 换句话说,这个想法可能有两个数据帧。 我不喜欢这个,因为它不是很优雅,而且似乎没有利用 pandas 的潜力。 我相信我可以使用一些与多索 ...
我正在尝试根据列值employ_start_date和索引employ_class过滤我的多索引数据df 。 可以通过以下方式单独获得: 我想根据这两个条件过滤df ,使其看起来类似于: 但我得到ValueError: operands could not be broadcast together ...
我最初有这个 dataframe: df = pd.DataFrame({'slide': [0, 0, 1, 1, 2, 2, 0, 0], 'time': [1673, 17892, 1132, 61730, 2323, 8491, ...
我创建了这个 dataframe: 但我需要更改多索引列中的顺序。 我需要这样的东西 你可以帮帮我吗:)? ...
我有一个具有以下结构的 Dataframe: 我想根据值“X”** 2 + “Y”** 2 为每个节点添加一个新的计算列“Z”。 以下实现了预期的结果: 有没有更直接的方法来实现这一目标? 例如,使用df.xs到 select 所需的列数据 eg df.xs("X", axis=1, level= ...
我当前的 DF 看起来像: 我的 DF 有很多行,我需要根据 user_id 是否在名为“用户”的特定集合中更改第 2 列的值。 我正在使用以下代码,但它似乎不起作用。 我的代码: 当我检查“用户”集中存在的特定 user_id 时,它显示为“NaN”。 这是否意味着代码无效? 如果 user_id ...
我有一个 dataframe,它计算每个用户每天发生事件的次数。 用户每天可能有 0 个事件,并且(因为该表是原始事件日志的汇总)dataframe 中缺少具有 0 个事件的行。我想添加这些缺失的行并按周对数据进行分组,以便每个用户都有每周一次(如果适用,包括 0 次)。 这是我的输入示例:impo ...
我有一个排序的多索引 pandas 数据框,我需要在条形图中显示 plot。 我的数据框。 我要么还没有找到解决方案,要么简单的解决方案不存在,但我需要 plot 此数据的条形图,其中Content和Category位于 x 轴上, Installs量为高度。 简单来说,我需要展示每个条形由什么组 ...
我有一个 Pandas 数据框,其中包含一个经过过滤(交互式)的多索引。 生成的过滤帧在索引中具有冗余级别,其中所有条目对于所有条目都是相同的。 有没有办法从索引中删除这些级别? 有一个像这样的数据框: 我想降低“二级”级别,但没有指定级别,因为我事先不知道哪个级别是多余的。 像(组成 functi ...