我为相对较大的 dataframe df 运行 IPR 离群值控制:我在数据的子集中执行 IPR,因此我使用 for 循环。 如何将值返回到原始 df >1 000 000 行: ...
我为相对较大的 dataframe df 运行 IPR 离群值控制:我在数据的子集中执行 IPR,因此我使用 for 循环。 如何将值返回到原始 df >1 000 000 行: ...
有人可以解释 series_outliers() Kusto function 如何计算异常分数吗? 我知道它使用带有最小百分位数和最大百分位数的 Tukey 栅栏给定一个数字数组,但我想更详细地了解步骤/算法是什么。 例如,给定这张表 我发现 Q1 = 2.4、Q3 = 15 和 IQR = 1 ...
我已经尝试了所有方法,我在 stackover、inte.net 中搜索了结果,我真的在堆叠,或者我只是瞎了眼。 我有一个 *csv IMU 数据(加速度计、陀螺仪、Ma.netometer 等),我想检测比中值高 3sigma 的尖峰,我已经做了,但我不能做的是替换那些异常值(尖峰) 与两个最接 ...
这个问题是从 Stack Overflow 迁移过来的,因为它可以在 Cross Validated 上回答。 5 天前迁移。 目前,我正在构建我的分析组合,作为 Google 数据分析课程的一部分。 我选择了分析 2021 年 Divvy Bike Sharing 数据的选项。但现在我陷入了需 ...
我正在使用臭名昭著的 MTA Turnstile 数据集,我试图排除异常值但没有取得太大成功。 我的离群值定义是“HOURLY_ENTRY”或“HOURLY_EXITS”>= 0 或 < 14000。 首先,我计算了排除异常值的组均值。 然后我尝试将 map 放到异常值上。 代码运行但 ...
我在尝试计算数据集的 z 分数时遇到了一些问题(我的数据集称为 comb22) 这是我的代码 这是我正在填写的代码 当我运行此代码时,出现错误“comb22 中的错误 - mean(comb22):二元运算符的非数字参数” 如果这很明显,我深表歉意,但我的代码中的错误在哪里? 我还尝试使用 comb ...
基于异常值检测公式,我想创建自己的 function 并自定义它。 这是我的操作方法: 我希望每个代码都能得到这些不同的结果:: 不幸的是我意识到if statement只能返回一个值。 ...
ggplot异常值计算公式是什么? Quartile1- 1.5*IQR and Quartile3 +1.5*IQR ? 如果是这样,我可以手动更改此规则吗? ...
在较低的尺度上,我显然看到了几个异常值,其中最大值是 18211 如果我放大然后我开始看到额外的异常值 是否可以将 Grafana 配置为始终显示所有点或以不同方式聚合它们? 后端是石墨。 ...
我想为每个变量的异常值自动创建列。 用于标识每个变量异常值的列必须与相关变量相邻。 变量的值必须是 yes 或 no。 有可能自动化吗? 我使用 function Outlier {DescTools} 来识别异常值 这是预期的数据集: Weight_outlier Weight之后, Heigh ...
我想在箱线图上显示具有极值的 ID,但我不知道该怎么做。 例如,对应于值 10、98 和 120 的 ID ...
我有一个数据(user_data)表示每个 class 中的示例数(这里我们有 5 个类),例如在第一行中,16 代表 class 中的 16 个样本 1 对于 user1,15 代表有 15 个样本属于 class 2 用于用户 1,等等。 我计算了每个用户的概率向量 Output: 我使用以下方 ...
如果您注意到, ap_lo在两端都有异常值。 它们是数据输入错误。 ap_lo 是舒张压。 它不应该是负数或那么高。 我想删除它们(并可能找到更多)。 我 go 如何删除他们在 R 中的索引? 以下代码不是答案: ...
您好,我正在尝试制作一个简单的脚本来查找数据集中的异常值: 该类如下所示: 该脚本非常适用于如下所示的数据集: 它将返回一个看起来像这样的异常值数组,这是正确的: 但是,如果我提供一个稍微修改过的数据集,它在索引 3 和 4 处有 2 个异常值: 它会将整个数组作为异常值返回,因为平均值现在离所有数 ...
我尝试在我的数据集df2_clean的子集.iloc[:,6:]上使用这篇文章中的代码原始代码: 我的问题是列表 newcol 计算得很好,但行df2_clean.iloc[:,6:][col] = newcol似乎不起作用。 这真的很令人困惑,因为当我添加两个 Prints 时: 结果是 在下面发 ...
我有一个数据框,其中包含 159 个金融机构的 10017 个观察值。 我如何才能提高每个金融机构分布的正态性,而不必去 excel 并手动更改超过 +-3SD 的数据,其值在分布的 1% 和 99% 上? 我是数据分析的新手,因此我希望它很清楚我要求tapply(df$x, df$id, quan ...
我有以下形式的数据集: 我想在预测异常高值或低值的意义上执行异常检测。 我正在执行isolation forest : 我作为离群值得到的结果如下: 它似乎识别了峰值,但它遗漏了一些显然是异常值的低值,我在图中突出显示了它们。 知道是什么导致了这个错误吗? ...
我正在尝试使用 R 使用 tsoutliers() 函数执行异常值清理。我有一个时间序列以及该时间序列的摘要如下: dput(X1) : 这是作者针对此功能的文档: https ://robjhyndman.com/hyndsight/tsoutliers/ 这个时间序列的总结是: 如您所见,第 ...
为什么我无法按预期过滤掉异常值? 我的数据集有 299 个观察值。 我试过改变标志,但我不认为这是错误的。 也许这可能是我的括号? [Q3+(1.5)IQR] 以上的所有异常值是我试图在serum_creatinine和creatine_phosphokinase中删除的数据 ...
我正在尝试删除异常值。 我想删除这两个变量的异常值(可能更多)。 与其从一个变量中移除异常值,然后再从另一个变量中移除异常值——这可能会移除由于第一次过滤而从未成为异常值的观察结果——我如何才能获取这些异常值的索引位置? 这样,我可以简单地 select 所有未包含在刚刚编码的列表中的索引。 ...