我有一个 df,你可以通过复制并运行以下代码来获得它: 我的问题是,如何获得每个用户每个持续时间的平均值? 输出应该是这样的(平均值是样本的假值,不是准确的平均值): ...
我有一个 df,你可以通过复制并运行以下代码来获得它: 我的问题是,如何获得每个用户每个持续时间的平均值? 输出应该是这样的(平均值是样本的假值,不是准确的平均值): ...
我有一个包含数百万个事件的列表,这些事件及时存储在数据框df中。 df.head()给出 output: 我按时间分组。 我想获得所有时间 windows 的 idxmin 和 idxmax,因为我需要知道是最小值还是最大值先出现。 任何时候 window不包含我想要一个 NaN 值的测量值。 因 ...
我正在尝试通过 tb.IsDescription class 创建一个表结构,然后创建一个 .h5 文件并使用带有日期时间索引的 Pandas Dataframe 填充它,使用 TsTables package。我已经测试了 Dataframe 和日期时间索引没事的。 我认为问题出在 TsTabl ...
我的目标: 我有一个每天随机生成的数据集,导致第一行在随机时间开始。 我想让这个数据集从最近的午夜日期开始。 例如,如果第一行的日期是2022-05-09 15:00:00 ,我将不得不对数据进行切片以使其从最近的午夜开始,在这种情况下: 2022-05-10 00:00:00 这是数据集的样子: ...
在这个 dataframe df 中,我需要按时间戳 -> select 过滤一个时间戳,对于唯一的汽车列名称,我需要计算计算唯一汽车名称的列。 output 看起来像这样。 让我们说如果我们给 2015-04-16 11:57:36 我试过这样的东西,但没有带时间戳的想法过滤器。 任何人 ...
如何以最简洁的方式生成每 12 个月观察一次的月度周期指数? 我想出了以下解决方案 但我想知道是否有一种方法可以避免从期间索引转换为 dataframe 并返回到期间索引。 这是预期的 output: ...
请帮助我找出如何检查“chosen_date”是否在“date1”和“date2”列之间的范围内。 from datetime import datetime chosen_date = datetime.today().strftime("%Y-%m-%d") ...
我有一个 dataframe 有 1900 万行不同的客户(~10K 客户)以及他们在不同日期范围内的日常消费。 我已将此数据重新采样到每周消耗量中,结果 dataframe 是 2M 行。 我想知道每个客户的连续日期范围和 select 个具有最大(范围)的日期。 有任何想法吗? 谢谢! ...
我知道圆形,天花板,地板功能。 这四舍五入到最接近的 30 分钟间隔。 我想要的是每个都四舍五入到 30 分钟。 在.round 的情况下,10:15 将四舍五入为 10:30,10:45 将四舍五入为 11:00。 我希望两者都舍入到 10:30。 日期时间索引: ...
我正在使用来自 yfinance 的数据,它返回 pandas 数据帧。 数据框中有 5 分钟的日内间隔。 我想重新采样到每日数据并获得当天最大音量的 idxmax。 返回错误: 我使用 B(business-days) 作为重采样周期,所以不应该有任何空序列。 我应该说.max() 工作正常。 ...
我有基本的财务 OHLCV 数据。 假设我想 select 某一天的所有示例。 即使在使用 lt 或 gt 时可以与字符串日期进行比较,这也不起作用。 所以我创建了日期列 这个新列比 object dtype 还: 还是不行。 ...
我有一个带有 1 列和基于时间的索引的 Pandas 数据框。 我想每两秒重新采样一次数据并计算列中值的平均值。 下面是一个例子: 上面的代码给出了这个结果。 现在,我每两秒计算一次值的平均值。 这给了我如下图所示的结果。 但我希望得到如图 3 所示的结果。我希望将计算出的平均值 ...
当您从 yfinance 实时下载数据并且同时下载多个股票代码时,您通常会将最后一个数据示例分成几行。 我不在乎这些最小的时间差异,我只想要最后一行中每只股票的最后一个例子。 我一直在考虑对最后一个例子进行分组,但我不确定如何分组。 请注意,我一次下载的股票可能更多,可能是 10 个,然后这 ...
我有一个 dataframe 如下: 我希望将Date列分成几组在一个新列中,称为Date_Bin,规则是:从今天开始,如果Date中的值小于7天,那么新列中的值将是'last 7 days',如果该值小于 14 天且大于 7 天,则该值为“7 到 14 天”,如果该值小于 30 天且大于 14 天 ...
我有一个 dataframe 具有连接日期、断开日期、 rowID和RouterName 。 我想在一个循环中找到当前活动的连接,该循环每分钟迭代一次(这可以更改为任何分钟),持续 24 小时。 我正在尝试从该数据集计算该位置的人数,稍后我将使用该数据集来计算代理感染电晕或任何空气传播传染病的风险水 ...
我有一个 dataframe 有一堆不同的测量值(每个measurements列中都有一个唯一的 ID),并且每 10 毫秒采集一次测量样本。 现在我想对所有数据进行下采样,以便为所有测量“伪造”不同的采样时间,例如 40 毫秒。 我实现了如下所示的重采样,但现在我被卡住了:我不想在重采样器 ob ...
我有一个不同间隔的交易数据框,例如。 1分钟和5分钟。 我希望将计算值从较慢的 5 分钟复制到 1 分钟 dataframe。 例如 1min 是这样的: 我希望在 dataframe 中添加一个 forecast_5m 或其他内容,它具有来自 5 分钟 dataframe 的预测列的前 5 分 ...
这是我的代码设置: 这会产生具有以下形式的 dataframe: 我想要做的是找到值之间的中点并在 dataframe 中创建两个新列。 两个新列是“开始时间”和“结束时间”。 “开始时间”是该时间与前一次之间的中点(如果存在)。 “结束时间”是该时间与下一次之间的中点(如果存在)。 如果不存在 ...
尝试使用带有 timeindex 和 count() 方法的 pandas 滚动,出现错误,我在这里缺少什么? 这是一个例子: 得到这个: ...