标签[outliers] - 堆栈内存溢出

多次操作后将值返回给df - return value to df after several operations

我为相对较大的 dataframe df 运行 IPR 离群值控制：我在数据的子集中执行 IPR，因此我使用 for 循环。如何将值返回到原始 df >1 000 000 行： ...

Kusto series_outliers() 如何计算异常分数？ - How does Kusto series_outliers() calculate anomaly scores?

有人可以解释 series_outliers() Kusto function 如何计算异常分数吗？我知道它使用带有最小百分位数和最大百分位数的 Tukey 栅栏给定一个数字数组，但我想更详细地了解步骤/算法是什么。例如，给定这张表我发现 Q1 = 2.4、Q3 = 15 和 IQR = 1 ...

Python中去尖峰u,v,w风速数据换成pad - De-spike u,v,w wind speed data and replace them with pad in Python

我已经尝试了所有方法，我在 stackover、inte.net 中搜索了结果，我真的在堆叠，或者我只是瞎了眼。我有一个 *csv IMU 数据（加速度计、陀螺仪、Ma.netometer 等），我想检测比中值高 3sigma 的尖峰，我已经做了，但我不能做的是替换那些异常值（尖峰) 与两个最接 ...

我应该将这些数据点视为异常值吗？ - Should I treat these data points as outliers?

这个问题是从 Stack Overflow 迁移过来的，因为它可以在 Cross Validated 上回答。 5 天前迁移。目前，我正在构建我的分析组合，作为 Google 数据分析课程的一部分。我选择了分析 2021 年 Divvy Bike Sharing 数据的选项。但现在我陷入了需 ...

使用 groupby 均值排除异常值 - Pandas - Excluding outliers with a groupby mean - Pandas

我正在使用臭名昭著的 MTA Turnstile 数据集，我试图排除异常值但没有取得太大成功。我的离群值定义是“HOURLY_ENTRY”或“HOURLY_EXITS”>= 0 或 < 14000。首先，我计算了排除异常值的组均值。然后我尝试将 map 放到异常值上。代码运行但 ...

Z分数计算 - Z score calculation

我在尝试计算数据集的 z 分数时遇到了一些问题（我的数据集称为 comb22）这是我的代码这是我正在填写的代码当我运行此代码时，出现错误“comb22 中的错误 - mean(comb22)：二元运算符的非数字参数” 如果这很明显，我深表歉意，但我的代码中的错误在哪里？我还尝试使用 comb ...

如何手动创建我的 function 来检测异常值并对其进行自定义 - How to manually create my function to detect outliers and to customize it

基于异常值检测公式，我想创建自己的 function 并自定义它。这是我的操作方法：我希望每个代码都能得到这些不同的结果:: 不幸的是我意识到if statement只能返回一个值。 ...

是否可以在ggplot中自定义离群值计算公式？ - Is it possible to customize outliers calculation formula in ggplot?

ggplot异常值计算公式是什么？ Quartile1- 1.5*IQR and Quartile3 +1.5*IQR ？如果是这样，我可以手动更改此规则吗？ ...

不要在较低的尺度上看到 Grafana 中的所有点 - Don't see all points in Grafana on lower scales

在较低的尺度上，我显然看到了几个异常值，其中最大值是 18211 如果我放大然后我开始看到额外的异常值是否可以将 Grafana 配置为始终显示所有点或以不同方式聚合它们？后端是石墨。 ...

如何自动创建列以识别每个数值变量的离群值 - How to automatically create columns to identify outliers for each numeric variable

我想为每个变量的异常值自动创建列。用于标识每个变量异常值的列必须与相关变量相邻。变量的值必须是 yes 或 no。有可能自动化吗？我使用 function Outlier {DescTools} 来识别异常值这是预期的数据集： Weight_outlier Weight之后， Heigh ...

如何在箱线图上显示异常值的 ID - How to display the ID of outliers on a boxplot

我想在箱线图上显示具有极值的 ID，但我不知道该怎么做。例如，对应于值 10、98 和 120 的 ID ...

带平滑条件的拉普拉斯校正 - Laplace correction with conditions for smoothing

我有一个数据（user_data）表示每个 class 中的示例数（这里我们有 5 个类），例如在第一行中，16 代表 class 中的 16 个样本 1 对于 user1，15 代表有 15 个样本属于 class 2 用于用户 1，等等。我计算了每个用户的概率向量 Output：我使用以下方 ...

如何删除异常行 - How do I remove outlier rows

如果您注意到， ap_lo在两端都有异常值。它们是数据输入错误。 ap_lo 是舒张压。它不应该是负数或那么高。我想删除它们（并可能找到更多）。我 go 如何删除他们在 R 中的索引？以下代码不是答案： ...

百分比离群值检测 - Percentage Outlier Detection

您好，我正在尝试制作一个简单的脚本来查找数据集中的异常值：该类如下所示：该脚本非常适用于如下所示的数据集：它将返回一个看起来像这样的异常值数组，这是正确的：但是，如果我提供一个稍微修改过的数据集，它在索引 3 和 4 处有 2 个异常值：它会将整个数组作为异常值返回，因为平均值现在离所有数 ...

熊猫将异常值新列表替换为列值 - Pandas replacing outlier new list to column value

我尝试在我的数据集df2_clean的子集.iloc[:,6:]上使用这篇文章中的代码原始代码：我的问题是列表 newcol 计算得很好，但行df2_clean.iloc[:,6:][col] = newcol似乎不起作用。这真的很令人困惑，因为当我添加两个 Prints 时：结果是在下面发 ...

如何更改多个子集中的值 - How to change values in multiple subsets

我有一个数据框，其中包含 159 个金融机构的 10017 个观察值。我如何才能提高每个金融机构分布的正态性，而不必去 excel 并手动更改超过 +-3SD 的数据，其值在分布的 1% 和 99% 上？我是数据分析的新手，因此我希望它很清楚我要求tapply(df$x, df$id, quan ...

时间序列中的异常值检测 - Outlier detection in time-series

我有以下形式的数据集：我想在预测异常高值或低值的意义上执行异常检测。我正在执行isolation forest ：我作为离群值得到的结果如下：它似乎识别了峰值，但它遗漏了一些显然是异常值的低值，我在图中突出显示了它们。知道是什么导致了这个错误吗？ ...

使用 tsoutliers() 的离群值检测在 R 中显示错误的离群值 - Outlier Detection Using tsoutliers() show wrong outliers in R

我正在尝试使用 R 使用 tsoutliers() 函数执行异常值清理。我有一个时间序列以及该时间序列的摘要如下： dput(X1) ：这是作者针对此功能的文档： https ://robjhyndman.com/hyndsight/tsoutliers/ 这个时间序列的总结是：如您所见，第 ...

为什么我无法删除异常值？ - Why am I not able to remove outliers?

为什么我无法按预期过滤掉异常值？我的数据集有 299 个观察值。我试过改变标志，但我不认为这是错误的。也许这可能是我的括号？ [Q3+(1.5)IQR] 以上的所有异常值是我试图在serum_creatinine和creatine_phosphokinase中删除的数据 ...

我如何获得过滤观察的索引？ - How do I get the index of filtered observations?

我正在尝试删除异常值。我想删除这两个变量的异常值（可能更多）。与其从一个变量中移除异常值，然后再从另一个变量中移除异常值——这可能会移除由于第一次过滤而从未成为异常值的观察结果——我如何才能获取这些异常值的索引位置？这样，我可以简单地 select 所有未包含在刚刚编码的列表中的索引。 ...