簡體   English   中英

如何從R中的數據集中識別離群值

[英]How to identify an outlier from a data set in R

因此,我是R的新手,我目前正在嘗試識別一組數據中的異常值,到目前為止,我已經輸入了R,

lifespan_yrs<- c(38.6, 4.5, 14, 8, 69, 27, 19, 30.4, 28, 50, 7, 30, 3.5,
 40, 3.5, 50, 6, 10.4, 34, 7, 28, 20, 3.9, 39.3, 41, 16.2, 9, 7.6, 46, 22.4, 
 16.3, 2.6, 24, 100, 13, 10, 3.2, 2, 5, 6.5, 23.6, 12, 20.2, 13, 27, 18, 13.7, 
 4.7, 9.8, 29, 7, 6, 17, 20, 12.7, 3.5, 4.5, 7.5, 2.3, 24, 3, 13)

gestation_days<- c(645, 42, 60, 25, 624, 180, 35, 392, 63, 230, 112, 281, 35, 
365, 42, 28, 42, 120, 75, 122, 400, 148, 16, 252, 310, 63, 28, 68, 336, 100, 33, 
 21.5, 50, 267, 30, 45, 19, 30, 12, 120, 440, 140, 170, 17, 115, 31, 63, 21, 52, 
164, 225, 225, 150, 151, 90, 45, 60, 200, 46, 210, 14, 38)

lifespan_yrs

gestation_days

plot(gestation_days,lifespan_yrs)

我有一個數據圖,但是問題的下一部分說“調查此圖並討論值得調查的任何數據點”,我的意思是數據中是否存在異常值(我不確定該定義什么我可以/應該使用的離群值),然后在R上是否有辦法以這種方式調查數據點? 請再次用簡單的語言進行解釋,因為我是R的新手。

謝謝! 莫莉x

好吧,“異常值”僅表示“在假定的數據模型下概率較低的事物”。 最簡單的假設是數據是正態分布的。 正態分布數據的低概率意味着尾巴中的任何東西。 尾部表示與均值相差多個(例如兩個)標准偏差的數據。

因此,這導致了一個非常簡單的過程。 通過R函數mean計算mean並通過sd計算標准偏差。 然后查看小於均值減去標准差兩倍的標准差或大於均值加上標准差兩倍的標准差的所有點。這些點在左尾將是幾個,在右尾將是幾個。 這些數據是否有趣? 那就是您的教練要問的。

當然,什么是離群值完全取決於為數據假設的模型-如果更改模型,則將更改離群值。 因此,重要的是要弄清楚您的模型是什么,並准備好在有人(例如您的講師)建議使用其他模型時進行更改。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM