cost 270 ms
如何模拟随机值以根据 pandas 中可用数据的分布来估算缺失值? - How to simulate random values to impute the missing values based on the distribution of available data in pandas?

我的 pandas dataframe, df中有一个Age category列。 在Age category列中,有 32% 的缺失值,我需要进行一些插补。 我正在考虑使用可用数据的分布,即 68% 来估算缺失值。 下面的屏幕截图是年龄类别的可用数据(68%)的分布: 从表中可以看出, 36 ...

R - 按组估算缺失值(线性/移动平均) - R - Impute missing values by group (linear / moving average)

我有一个包含很多缺失值的大型数据集,我想通过组“名称”线性或移动平均来估算它。 希望结果可以像下面这样关闭: 我找到了这个和这个。 在没有 groupby 的情况下尝试了以下操作,但没有成功: 第一个报错如下: 所以我尝试了第二个,它一直加载很长时间,但什么也没发生。 根据第一个链接的回复, p ...

时间序列缺失值插补:如何在 na_kalman 中使用 maxgap? - Time series missing value imputation: How to use maxgap inside na_kalman?

因为我只是在寻找一种方法来避免时间序列插补中前导零的缺失值插补。 由于前导零通常是时间序列中最长的缺失值序列,因此如果您使用全局模型预测面板数据,我想通过使用 maxgap 参数来控制这些影响。 maxgap 参数设置在插补过程中仍要替换的连续 NA 的最大值。 但是,如果我想避免替换任何长于 ...

尝试在数据框列表上使用“na_ma”时出现问题? - Problems when attempting to use "na_ma" on a list of data frames?

我是一个相当新手的 R 用户,但一直在尝试做一些简单的缺失值替换。 (用NA之前的值和NA之后的值的平均值替换NA ) 我一直在使用imputeTS库中的na_ma()函数,它正在做我需要做的事情。 我已将它应用于一列,然后是一个数据框,并且一切正常。 我现在希望将它应用于数据框列表,但它似 ...

用来自其他向量的值替换一个向量中的值 - Replace values in one vector with values from other vector(s)

我有一个数据框是这样的: 但是,我如何设法创建一个新的向量,它从 var2 中获取值,并用 var1 中的 NA 替换它,否则只从 var1 中获取值(1 或 2),只要它有一个值? 我在想这样的事情: 另一个数据帧也是如此,其中有更多向量: 在这种情况下,我想创建另一个向量“newv ...

我们如何检测和删除介于 NA 之间的变量并计算多个时间序列的 ACF? - How can we detect & remove variables with inbetween NAs and calculate the ACF on multiple time series?

这是我的玩具时间序列数据: 我想计算多个时间序列的自相关(acf)。 忽略插补部分,我需要: 删除具有中间 NA 的变量(而不是时间序列开始和结束的变量),例如 2010 年 7 月 31 日的 A 的 NA。所以在这种情况下,删除变量 A。 可能使用 ACF function 从 B 上的盛宴 ...

通过从 imputeTS 函数中提取数据来计算时间序列中的平均间隙大小 - Calculate average gap size in time series by extracting data from imputeTS functions

我需要计算单变量时间序列数据集的平均间隙大小。 imputeTS package 使用此数据生成图。 是否可以从 statsNA 或 plotNA.gapsize 中提取“间隙大小”和“出现次数”? 或者有没有其他方法可以找到时间序列数据集中差距的平均大小? (您可以使用 imputeTS 包中 ...

在 R 中以最小间隔插入最后一个或下一个观察值的 NA - Interpolate NAs in R with last or next observation by smallest interval

我想在两个或多个间隙中使用最后一个观察结果(locf)或下一个观察结果向后(nocb)来估算缺失值。 为了确定填充缺失值的方向(上/下),对数据框中的第一列(间隔)进行加权。 插值(locf/nocb)应该从最小值结束(对应于向外的 NAs 行的间隔值)。 默认的 fillna 是 locf。 示 ...

通过组插值来估算缺失 - impute missing with interpolation by groups

我试图通过多个组的插值来估算缺失值NA 。 我只是一个简单的例子的子集: 我使用了na.approx()但出错了。 似乎我的数据在每个组的第一次观察中都有缺失值。 我也试过包imputeTS但没有用。 两者都不正确。 这是否意味着使用插值来估算缺失不是一个好主意? 我不确定哪种插补方式 ...

如何用缺失值前后的均值填充向量中的缺失值 - how to fill missing values in a vector with the mean of value before and after the missing one

目前我正在尝试在 R 中的向量中插补值。插补的条件是。 查找所有 NA 值 然后检查它们之前和之后是否有现有值 还要检查 NA 后面的值是否大于 NA 之前的值 如果满足条件,则取之前和之后的值计算平均值。 用估算值替换 NA 值 我开始编写代码来检测可以估算的值。 但我遇到了 ...

插补后操作动物园对象列 - Manipulating zoo object column after imputation

我有一个很大的每小时时间序列数据集,显示不同时间的温度。 该系列中有许多缺失值 (NA),因此我使用 imputeTS 包使用线性插值来估算缺失值。 在插值之前,我被告知要为估算值创建一列作为动物园对象。 这用估算的温度替换了任何 NA 温度。 我正在做加热度日分析,这是将建筑物加热到室温所需的热 ...

插补缺失的变量但不在开头和结尾? - Impute missing variables but not at the beginning and the end?

考虑以下工作示例: 我想使用 imputeTS 包中的 na_interpolation 来估算时间序列内不同点的缺失值。 但是,我不想在可能具有不同长度的系列的开头或结尾估算缺失值(在我的应用程序中替换这些值没有意义)。 当我运行以下代码来估算该系列时,所有 NA 都被替换了: 我想要实 ...

R:为什么合并丢弃数据? 如何为合并插入缺失值 - R: Why is merge dropping data? How to interpolate missing values for a merge

我正在尝试合并两个相对较大的数据集。 我正在按 SiteID 进行合并 - 这是位置和日期/时间的唯一指示符,由年、月 = 月、日和小时 = 小时组成。 问题是merge正在某处丢弃数据。 最小值、最大值、平均值和中值都会发生变化,当它们应该是相同的数据时,只需合并即可。 我已经将数据转成字符,并 ...

有限数量的 NA 的插值 - interpolation for limited number of NA

我有一个数据框 df ,其中有一列包含值(仪表读数)。 有些值偶尔会丢失 (NA)。 df 摘录: 我正在尝试做的事情: 如果只有一个连续的 NA,我想插值(例如第 2 行的 na.interpolation)。 但是如果有两个或更多连续的 NA,我不希望 R 进行插值并将值保留为 NA。 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM