
[英]How to replace level 2 in a multiIndex dataframe with values from a regular dataframe?
我正在编写一个算法来处理工作中的客户以进行一些数据分析,我按用户 ID 将数据分组为我的级别 1,然后按月份分组为我的级别 2。 然后我按用户对数据进行一些处理工作,这涉及到每月的时间序列。 除了最后一步,我下面的代码完全符合我的需要。 如何用 output 中处理后的时间序列数据重载原始数据? ...
[英]How to replace level 2 in a multiIndex dataframe with values from a regular dataframe?
我正在编写一个算法来处理工作中的客户以进行一些数据分析,我按用户 ID 将数据分组为我的级别 1,然后按月份分组为我的级别 2。 然后我按用户对数据进行一些处理工作,这涉及到每月的时间序列。 除了最后一步,我下面的代码完全符合我的需要。 如何用 output 中处理后的时间序列数据重载原始数据? ...
[英]Convert Tesseract Character List to CSV in R
我想使用 R 中的 Tesseract 库将以下列表转换为 CSV 文件,使用 /n 创建新行,使用空格创建新单元格/列: “5 2 3 390 - 500 -\n8 50 & 3 3 887 7\n1 3 - 9 5\n” 我可以读取扫描的 PDF,创建字符列表,但每当我将 outpu ...
[英]Groupby operation from DataFrame
我对以下使用groupby的情况感到困惑。 情况1和2有什么区别? 我明白DataFrame.groupby会返回DataFrameGroupby object。但是情况1怎么还停留在DataFrame类型呢? 数据是 DataFrame 从 pandas sql 结合几张表查询 我将数据分组并删除 ...
[英]Ensuring a minimum time interval between successive observations in a Pandas dataframe
我有一个按日期列排序的 pandas dataframe。 但是,我希望确保观察之间的最小时间间隔。 为简单起见,这个 window 是 10 分钟,这意味着如果我的第一次观察发生在上午 8:05,那么第二次观察必须至少发生在上午 8:15。 必须从 dataframe 删除在上午 8:05-8: ...
[英]Merging multiple dataframes in loop based on same suffix in variable names
当后缀相同时,我想将来自 demand_dataframe_list 的数据帧与 supply_dataframe_list 合并。demand_dataframe_list = [data_Market1, data_Market2] supply_dataframe_list = [df_su ...
[英]Writing Mainframe format file through Pyspark
我需要读取 hive 数据库表并以 EBCDIC 编码的文本格式写入该信息,因为它将用作大型机进程的输入。 我们正在使用 cp037 编码。 为此,我将 hive 表读入 df,然后调用自定义 udf 将数值转换为 COMP3 格式(用于在大型机中存储数值),然后使用大型机 EBCDIC 字符集的 ...
[英]Putting NaN when a day in a DataFrame doesn't return a value
我想获取数据框中每一天的“15:30:00.0”行中的最后一个,但正如您在 16 号看到的那样,我们没有获取从 13:00:00.0 到 15 的任何行: 30:00.0 我的DataFrame: 如果我使用下面的代码来尝试拉间隔: Output: 是否可以将 Nan 或其他东西放在那里,以便它识 ...
[英]fillna in one column only where two other columns are equal from different data frames python
我正在尝试使用自定义表中的信息更新我的主人 data.table。 其中 mt.type 为 null 当 mt.item = ct.item 时更新 mt.type 在 inte.net 上,我找不到根据与主数据框和另一列不同的匹配列来更新数据框中的一列的解决方案。 我想也许我需要这样的东西,但 ...
[英]How to use pandas to expand a groupby table to have the rows repeated
我有按以下方式分组的数据: 前我想将 dataframe 展开以取消分组,形成如下图所示的表格: 后重复这些项目以获得更简单的表格的最佳方法是什么? 我曾尝试使用 unstack,但我希望列保持与当前相同。 ...
[英]Rename all values in column pandas base a list of values
我有这个列表列表 = [['Lost Summoner Kitty', 70], ['Ironbound', 4000]] 我还有这个 dataframe: 我想找到一种通用方法,用他在上一个列表中的名字替换 item_id integer ...
[英]Match rows based on closest index
我有两个不同的数据框: 数据框1: Dataframe 2: 现在,我正在尝试根据两个索引(芯片和核心)之间的直接匹配以及与时钟速度的最接近匹配来匹配这两个数据帧,以获取“平均瓦特空闲”列。 基本上,dataframe1 中的第一行有 ['PhysicalWindows1', 1, 8, 3400 ...
[英]Python Pandas data adding columns instead of rows and maintaining columns order per original dataset
我有一个小数据集,我需要通过在同一行上显示所有相关记录(通过 ID 相关)来重塑布局。 一旦我 Pivot pandas 中的数据,列的顺序就会发生变化,如下面的第二张图片所示。 请问如何将列的顺序保持为原始数据集的顺序? 原始数据集 结果 旋转数据以将相关记录堆叠为新列而不是新行。 顺序不对,应该 ...
[英]Is there a way to multiply non-conformable arrays using 0 for missing values in R?
我正在尝试找出一种方法来乘以不合格的 arrays 元素。 我认为这是一项简单的任务,但我一直遇到问题。 我有两张小桌子: 和 我想按元素乘以这些值,以便我的 output 看起来像: 使用 当两个表具有相同数量的元素时工作,但我需要它来处理不同数量的元素的文件。 我曾尝试将表转换为数据框并使用 ...
[英]Find the time difference in two dataframes
df1: df2: 我想得到时差。 即,df1中的time_1减去df2中的所有time_2值。 df: 和 go 上 ...
[英]Divide a range of values for each unique value
我希望有人可以帮助我解决这个问题。 我有一个 Excel 数据框,其结构类似于下面的示例: Model 年年 A 2010 2012 乙 2013 2020 我需要将每年的年份范围分成一行。 示例如下: Model 年 A 2010 A 2011年 A 2012 乙 2013 乙 ...
[英]Python Drop duplicates to ignore case sensitive
我想从下面的 df 中删除重复项,同时保留区分大小写。 输入 df 预期 df ...
[英]Count up if value changes in other dataframe columns
我的输入是: dataframe 已经排序。 所需的 output 是创建一个名为“子组”的列,该列从 1 开始,然后仅在 y 值更改时向上计数,并在组编号更改时从 1 重新开始。 还要创建另一个名为“计数”的列,该列会一直计数直到“子组”发生变化,当“子组”发生变化时,“计数”从 1 开始。所需 ...
[英]How do I identify and extract events from a time-series dataframe?
我有一个时间序列数据集,如下所示:时间序列在我将数据集导入 Python 中的 pandas dataframe 之后,我想: 将所有高于零的增长识别为单个事件计算每个事件的曲线下面积存储区域的值以及事件的开始时间和结束时间关于我如何处理这个问题的任何指示? 我对无监督学习有一点经验。 但是,我什 ...
[英]Grib2 data extraction with xarray and cfgrib very slow, how to improve the code?
该代码大约需要 20 分钟来为每个变量加载一个月,其中 168 个时间步长用于每天 00 和 12 UTC 的循环。 存到csv的时候,代码就更耗时了,跑了快一天了,还是没有存到任何站。 我怎样才能改进下面的代码? ...
[英]Compare 3 columns in two different data frames and action based on comparison result
我正在尝试比较两个不同数据框中的 3 列,并根据比较结果更新“标志”。 例如, 如果 df_2 的按行元素 (col=l) 位于 df_1 的按行元素 (cols =x, y) 之间并且 df_1 中的按行元素 (col=z) 与 df_2 的按行元素匹配(col = k),然后标志更新为 1, ...