我的 pandas dataframe, df中有一个Age category列。 在Age category列中,有 32% 的缺失值,我需要进行一些插补。 我正在考虑使用可用数据的分布,即 68% 来估算缺失值。 下面的屏幕截图是年龄类别的可用数据(68%)的分布: 从表中可以看出, 36 ...
我的 pandas dataframe, df中有一个Age category列。 在Age category列中,有 32% 的缺失值,我需要进行一些插补。 我正在考虑使用可用数据的分布,即 68% 来估算缺失值。 下面的屏幕截图是年龄类别的可用数据(68%)的分布: 从表中可以看出, 36 ...
我有一个包含很多缺失值的大型数据集,我想通过组“名称”线性或移动平均来估算它。 希望结果可以像下面这样关闭: 我找到了这个和这个。 在没有 groupby 的情况下尝试了以下操作,但没有成功: 第一个报错如下: 所以我尝试了第二个,它一直加载很长时间,但什么也没发生。 根据第一个链接的回复, p ...
因为我只是在寻找一种方法来避免时间序列插补中前导零的缺失值插补。 由于前导零通常是时间序列中最长的缺失值序列,因此如果您使用全局模型预测面板数据,我想通过使用 maxgap 参数来控制这些影响。 maxgap 参数设置在插补过程中仍要替换的连续 NA 的最大值。 但是,如果我想避免替换任何长于 ...
我是一个相当新手的 R 用户,但一直在尝试做一些简单的缺失值替换。 (用NA之前的值和NA之后的值的平均值替换NA ) 我一直在使用imputeTS库中的na_ma()函数,它正在做我需要做的事情。 我已将它应用于一列,然后是一个数据框,并且一切正常。 我现在希望将它应用于数据框列表,但它似 ...
我有一个数据框是这样的: 但是,我如何设法创建一个新的向量,它从 var2 中获取值,并用 var1 中的 NA 替换它,否则只从 var1 中获取值(1 或 2),只要它有一个值? 我在想这样的事情: 另一个数据帧也是如此,其中有更多向量: 在这种情况下,我想创建另一个向量“newv ...
我正在尝试在数据块上运行的 R 版本 3.6.3 中加载 inputeTS package。 我写了以下命令 我收到消息 但是在尝试加载 package 时使用 我收到错误消息 你能建议我如何解决这个问题吗? ...
有什么方法可以使用imputeTS进行具有多个回归变量的时间序列预测? 我在 y 中有空白,带有 NA 的分钟级数据,而我所有的 X(x1,x2,.. xn) 都是没有 NA 的连续变量 ae 完整的数据集可以在这里找到 ...
我用了一段时间R,安装包的时候一切正常。 最近,我将我的Ubuntu 16.04上的 R 从3.4.4升级到4.0.2 ,然后我尝试安装 package imputeTS作为 然后 我尝试安装与install.packages("imputeTS", dependencies = TRUE)相同的 ...
我尝试下面的代码,但我有一些错误。 ValueError:输入包含 NaN、无穷大或对于 dtype('float64') 来说太大的值。 ...
这是我的玩具时间序列数据: 我想计算多个时间序列的自相关(acf)。 忽略插补部分,我需要: 删除具有中间 NA 的变量(而不是时间序列开始和结束的变量),例如 2010 年 7 月 31 日的 A 的 NA。所以在这种情况下,删除变量 A。 可能使用 ACF function 从 B 上的盛宴 ...
我需要计算单变量时间序列数据集的平均间隙大小。 imputeTS package 使用此数据生成图。 是否可以从 statsNA 或 plotNA.gapsize 中提取“间隙大小”和“出现次数”? 或者有没有其他方法可以找到时间序列数据集中差距的平均大小? (您可以使用 imputeTS 包中 ...
我想在两个或多个间隙中使用最后一个观察结果(locf)或下一个观察结果向后(nocb)来估算缺失值。 为了确定填充缺失值的方向(上/下),对数据框中的第一列(间隔)进行加权。 插值(locf/nocb)应该从最小值结束(对应于向外的 NAs 行的间隔值)。 默认的 fillna 是 locf。 示 ...
我正在尝试用显示指数增长的数字填充 NA 值。 下面是我正在尝试做的数据示例。 我使用了%>% arrange(month, X2009H1N1) %>% group_by(X2009H1N1, type ) %>% mutate(aprox_MidLevelRange = zoo ...
我试图通过多个组的插值来估算缺失值NA 。 我只是一个简单的例子的子集: 我使用了na.approx()但出错了。 似乎我的数据在每个组的第一次观察中都有缺失值。 我也试过包imputeTS但没有用。 两者都不正确。 这是否意味着使用插值来估算缺失不是一个好主意? 我不确定哪种插补方式 ...
目前我正在尝试在 R 中的向量中插补值。插补的条件是。 查找所有 NA 值 然后检查它们之前和之后是否有现有值 还要检查 NA 后面的值是否大于 NA 之前的值 如果满足条件,则取之前和之后的值计算平均值。 用估算值替换 NA 值 我开始编写代码来检测可以估算的值。 但我遇到了 ...
我有一个很大的每小时时间序列数据集,显示不同时间的温度。 该系列中有许多缺失值 (NA),因此我使用 imputeTS 包使用线性插值来估算缺失值。 在插值之前,我被告知要为估算值创建一列作为动物园对象。 这用估算的温度替换了任何 NA 温度。 我正在做加热度日分析,这是将建筑物加热到室温所需的热 ...
考虑以下工作示例: 我想使用 imputeTS 包中的 na_interpolation 来估算时间序列内不同点的缺失值。 但是,我不想在可能具有不同长度的系列的开头或结尾估算缺失值(在我的应用程序中替换这些值没有意义)。 当我运行以下代码来估算该系列时,所有 NA 都被替换了: 我想要实 ...
所以这是我的问题:我有 2010 年到 2019 年的每日利率原始数据。但是,缺少几个日期。 1244 9-Jul-10 5.053 1245 8-Jul-10 5.007 1246 7-Jul-10 4.991 1247 6-Jul-10 4.976 1248 28-Jun-10 4.850 1 ...
我正在尝试合并两个相对较大的数据集。 我正在按 SiteID 进行合并 - 这是位置和日期/时间的唯一指示符,由年、月 = 月、日和小时 = 小时组成。 问题是merge正在某处丢弃数据。 最小值、最大值、平均值和中值都会发生变化,当它们应该是相同的数据时,只需合并即可。 我已经将数据转成字符,并 ...
我有一个数据框 df ,其中有一列包含值(仪表读数)。 有些值偶尔会丢失 (NA)。 df 摘录: 我正在尝试做的事情: 如果只有一个连续的 NA,我想插值(例如第 2 行的 na.interpolation)。 但是如果有两个或更多连续的 NA,我不希望 R 进行插值并将值保留为 NA。 ...