cost 113 ms
使用 dataframe 中的 4 列创建层次结构 - pandas - Creating hierarchy using 4 columns in dataframe - pandas

Dataframe在下方 我需要像这样添加一个额外的列层次结构: 我正在查看的规则如下: 只为填充了过滤器值的行填充层次结构列,行的 rest 不需要完成层次结构。 当找到过滤值不是 null 的行时,查找其 parentID,然后在 ID 列中搜索此 parentid。 当发现隐居继续往上走时 ...

如何用常规 dataframe 中的值替换 multiIndex dataframe 中的级别 2? - How to replace level 2 in a multiIndex dataframe with values from a regular dataframe?

我正在编写一个算法来处理工作中的客户以进行一些数据分析,我按用户 ID 将数据分组为我的级别 1,然后按月份分组为我的级别 2。 然后我按用户对数据进行一些处理工作,这涉及到每月的时间序列。 除了最后一步,我下面的代码完全符合我的需要。 如何用 output 中处理后的时间序列数据重载原始数据? ...

确保连续观察之间的最小时间间隔 Pandas dataframe - Ensuring a minimum time interval between successive observations in a Pandas dataframe

我有一个按日期列排序的 pandas dataframe。 但是,我希望确保观察之间的最小时间间隔。 为简单起见,这个 window 是 10 分钟,这意味着如果我的第一次观察发生在上午 8:05,那么第二次观察必须至少发生在上午 8:15。 必须从 dataframe 删除在上午 8:05-8: ...

使用 MultiIndex 缓慢搜索大型 DataFrame - Searching a large DataFrame with a MultiIndex slow

我有一个大的 Pandas DataFrame(~800M 行),我在一个MultiIndex上建立了索引,它有两个索引,一个 int 和一个日期。 我想根据我拥有的整数列表(大约 10k)检索 DataFrame 行的子集。 整数与多索引的第一个索引匹配。 多索引是唯一的。 我尝试的第一件事是对 ...

通过Pyspark写入Mainframe格式文件 - Writing Mainframe format file through Pyspark

我需要读取 hive 数据库表并以 EBCDIC 编码的文本格式写入该信息,因为它将用作大型机进程的输入。 我们正在使用 cp037 编码。 为此,我将 hive 表读入 df,然后调用自定义 udf 将数值转换为 COMP3 格式(用于在大型机中存储数值),然后使用大型机 EBCDIC 字符集的 ...

当 DataFrame 中的一天不返回值时将 NaN 放入 - Putting NaN when a day in a DataFrame doesn't return a value

我想获取数据框中每一天的“15:30:00.0”行中的最后一个,但正如您在 16 号看到的那样,我们没有获取从 13:00:00.0 到 15 的任何行: 30:00.0 我的DataFrame: 如果我使用下面的代码来尝试拉间隔: Output: 是否可以将 Nan 或其他东西放在那里,以便它识 ...

fillna 仅在一列中,其中其他两列来自不同的数据框 python - fillna in one column only where two other columns are equal from different data frames python

我正在尝试使用自定义表中的信息更新我的主人 data.table。 其中 mt.type 为 null 当 mt.item = ct.item 时更新 mt.type 在 inte.net 上,我找不到根据与主数据框和另一列不同的匹配列来更新数据框中的一列的解决方案。 我想也许我需要这样的东西,但 ...

根据最接近的索引匹配行 - Match rows based on closest index

我有两个不同的数据框: 数据框1: Dataframe 2: 现在,我正在尝试根据两个索引(芯片和核心)之间的直接匹配以及与时钟速度的最接近匹配来匹配这两个数据帧,以获取“平均瓦特空闲”列。 基本上,dataframe1 中的第一行有 ['PhysicalWindows1', 1, 8, 3400 ...

Python Pandas 数据添加列而不是行并维护每个原始数据集的列顺序 - Python Pandas data adding columns instead of rows and maintaining columns order per original dataset

我有一个小数据集,我需要通过在同一行上显示所有相关记录(通过 ID 相关)来重塑布局。 一旦我 Pivot pandas 中的数据,列的顺序就会发生变化,如下面的第二张图片所示。 请问如何将列的顺序保持为原始数据集的顺序? 原始数据集 结果 旋转数据以将相关记录堆叠为新列而不是新行。 顺序不对,应该 ...

有没有一种方法可以使用 0 来乘以 R 中缺失值的不一致 arrays? - Is there a way to multiply non-conformable arrays using 0 for missing values in R?

我正在尝试找出一种方法来乘以不合格的 arrays 元素。 我认为这是一项简单的任务,但我一直遇到问题。 我有两张小桌子: 和 我想按元素乘以这些值,以便我的 output 看起来像: 使用 当两个表具有相同数量的元素时工作,但我需要它来处理不同数量的元素的文件。 我曾尝试将表转换为数据框并使用 ...

如果其他 dataframe 列中的值发生变化,则向上计数 - Count up if value changes in other dataframe columns

我的输入是: dataframe 已经排序。 所需的 output 是创建一个名为“子组”的列,该列从 1 开始,然后仅在 y 值更改时向上计数,并在组编号更改时从 1 重新开始。 还要创建另一个名为“计数”的列,该列会一直计数直到“子组”发生变化,当“子组”发生变化时,“计数”从 1 开始。所需 ...


 
粤ICP备18138465号  © 2020-2025 STACKOOM.COM