我有一个 dataframe,有 3 个级别的多索引列: 按级别 (0,2) 进行分组后,我得到以下小计 dataframe: 我需要将第二个插入第一个,而不打乱列、级别或索引,以便我得到以下 dataframe: 我该怎么做呢? ...
我有一个 dataframe,有 3 个级别的多索引列: 按级别 (0,2) 进行分组后,我得到以下小计 dataframe: 我需要将第二个插入第一个,而不打乱列、级别或索引,以便我得到以下 dataframe: 我该怎么做呢? ...
在 DolphinDB 中, asof join返回右表中给定时间之前的最新记录。 是否有类似于aj的 function ,但返回给定日期之前的所有先前记录和 forms 一个新表? 我有以下两个表,tb1 和 tb2。 在 tb2 中,日期列中的每个值都是一个月的第一天,每个目标(A、B 和 C ...
我有一份清单表格数据进入电子表格,我试图确定是否未检查特定值并提供基于此的信息。 我的第一个想法是拥有一个主列表/df,其中所有表单值然后对每个响应进行左/右合并以确定不存在的值。 示例数据和脚本。 对于第二组中缺少的地址响应,期望nan/NA ,有 6 行而不是原来的 5 行。 ...
我有一个 dataframe 将客户离散化为不同的 Q,它看起来像: 我想要做的是向 dataframe 添加一个新列 Q,它显示该客户所在的部门,因此它看起来像: 我能想到的唯一方法是使用 for 循环,但它会让我一团糟。 还有其他方法吗? ...
我正在尝试清理包含带有“重复”(但不完全重复)人员信息的脏数据的 Python Pandas dataframe 。 不幸的是,我没有明确的“主键”,因为列id并不总是设置,而且我有一个不同名称( name , name2 , name3 )的列表,它们并不总是匹配(有时我有相同的name但不同na ...
我在 excel 表中有数据,我正在读入数据框: ID 年级 课程 Q1 号码 Q1 信 Q2 编号 Q2 信 1 9 英语 73 ...
我该如何改变这个: 日期 网址 描述 类别 2022-06-17 14:24:52 /XYBkLO 上市 一个 2022-06-17 14:24:52 ...
我有 2 个数据框,我想合并名字并联系电子邮件,返回 df2 中的所有值。 数据样本: 合并 合并的输出 问题是由于两个表中名称和电子邮件之间的差异,某些行无法匹配,因此我想对名字和姓氏执行另一次合并以填充缺失的 nan 值。 我尝试使用 combine_first 函数,但由于索引不同 ...
输入: 时间从到 2/2/22 X 是 2/2/22 是 X 2/2/22 X 是 2/2/22 一种乙 2/2/22 P 问 2/3/22 问 P 2/2/22 C 丁 2/3/22 是 X Output: 时间从到时间从到 2/2/22 X 是 2/2/22 是 X 2/2/2 ...
我有两个如下所示的数据集: df1 : 日期 城市 状态 数量 2019-01 芝加哥 伊利诺伊州 35 2019-01 奥兰多 ...
我有 2 个数据框与 Covid-19 有关 和 我想以 dataframe 结束,它是两者的组合,就像这样, 我假设您可以对数据帧进行一些奇特的合并,但我无法锻炼您的操作方式。 ...
我有带 customer_id、datetime 和 fruites 购买的 DF1,以及带 customer_id、datetime 和 Veggies 购买的 DF2,如何检查在购买水果的过去 30 分钟内客户是否购买了 Veggies? 客户ID 购买日期水果项目 1个 2019-08-01 ...
我有 2 个数据框。 第一个是汇总表,汇总了每个行业及其来源的准确性(按降序排列)。 在第二张表中,Source A 和 B 中有字符串列表,它们可以是空值: 对于每一行/公司,我应该 select 第一个具有最高精度的非空源,如下表所示: 例如,对于 company1 和 2,尽管它们都来自“化工 ...
我有两个数据框: 我想合并的方式是列“A”在 DataFrame 之间添加不同的值,但合并重复项。 所需的 output: ...
我比较了两个数据帧( df1和df2 ),对于给定的键组合,每个数据帧都应具有唯一的行。 这意味着Col1和Col2等键没有重复项。 首先,我天真地确定哪些行不匹配 然后我想找出导致这种不匹配的列,考虑到唯一性键(?)。 因此,例如,要知道Col2导致与键Col1 = 'A'和Col3 = '2'不 ...
我试图弄清楚如何在 DataFrame 中的嵌套字段上执行合并或加入。下面是一些示例数据:df_all_groups = pd.read_json(""" [ { "object": "group", "id": "group-one", "c ...
我试图制作一个代码来输入项目的版本。 有两个数据框,一个包含项目,一个包含版本信息。 这是我制作的虚拟数据和代码: 所以我尝试的是这段代码。 实际上这段代码有效,但我认为它效率不高,因为它在大约 1~2 分钟内给了我一个结果。 (200 个项目)。 ...
我创建了一个脚本来加载数据、检查 NA 值并填充所有 NA 值。 这是我的代码: 但它没有用。 我检查了我的代码,发现这个问题来自 loc()。 例如: 我得到的是: 我不知道为什么 df[column_name] 可用,但 df.loc[index,columns_name] 是错误的。 你可以 ...
我有一个 DataFrame 的“职位”和“他们上任的日期”: 我想将 map 和position更改为不同cameToOfficeDate的员工姓名,但也基于position的commencementDate 。 比如CEO在2021年前是Bill,2021年后是Mark。 所以 output ...
我有几十个非常相似的数据框。 我想要的是将每个列的所有“VALUE”列值组合到列表中,并返回一个 dataFrame,其中“VALUE”列由这些列表组成。 我只想对“PV”包含子字符串列表中的 substring 的行执行此操作。 我想出了一种我认为可行的方法,但它真的很讨厌而且无论如何都不起作用( ...