[英]labelling factors and keeping numerical values
我在創建可以通過數值和“標簽”引用的因子時遇到了一些問題。
據說 lfactors 包可以做到這一點,但是我一直無法執行它。 所以,這就是我所做的:
library(lfactors)
cars <- mtcars
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
如果我們查看“碳水化合物”列(可能反映碳排放量),它是一個數字
所以使用 lfactors 包我改變了它:
cars$carb <- lfactor(c(1:4),
levels = c(1:4),
labels = c("low", "medium", "high", "extreme" ))
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: Factor w/ 4 levels "low","medium",..: 1 2 3 4 1 2 3 4 1 2 ..
我注意到它變成了一個因素,根據包裝說明,所以我做了檢查
levels(cars$carb)
[1] "low" "medium" "high" "extreme" # correct
cars$carb == "medium"
[1] FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE
[23] FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE # correct
cars$carb == 2
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # incorrect
我仍然無法通過級別和值來引用該因素,所以我想知道是否有人以前使用過這個包或者有什么替代建議?
盡管它並不完美,因為我無法通過值和標簽來引用這些因素,但我找到了一種至少允許我存儲兩者的方法,我認為這可能對我的位置的其他人有用:
library(sjlabelled)
library(magrittr)
library(sjmisc)
cars <- mtcars
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
frq(cars$carb)
x <numeric>
# total N=32 valid N=32 mean=2.81 sd=1.62
val frq raw.prc valid.prc cum.prc
1 7 21.88 21.88 21.88
2 10 31.25 31.25 53.12
3 3 9.38 9.38 62.50
4 10 31.25 31.25 93.75
6 1 3.12 3.12 96.88
8 1 3.12 3.12 100.00
NA 0 0.00 NA NA
所以這就是我們得到的數字形式,對因子的轉換保留了預期的形式:
cars$carb <- as_factor(cars$carb)
str(cars$carb)
Factor w/ 6 levels "1","2","3","4",..: 4 4 1 1 2 1 4 2 2 4 ...
frq(cars$carb)
<categorical>
# total N=32 valid N=32 mean=2.81 sd=1.62
val frq raw.prc valid.prc cum.prc
1 7 21.88 21.88 21.88
2 10 31.25 31.25 53.12
3 3 9.38 9.38 62.50
4 10 31.25 31.25 93.75
6 1 3.12 3.12 96.88
8 1 3.12 3.12 100.00
NA 0 0.00 NA NA
現在我們有了分類形式,我們可以標記值(在這個例子中我將忽略 6 和 8)
cars$carb<- set_labels(
cars$carb,
labels = c(
`1` = "low",
`2` = "medium",
`3` = "high",
`4` = "extreme"
))
frq(cars$carb)
<categorical>
# total N=32 valid N=32 mean=2.81 sd=1.62
val label frq raw.prc valid.prc cum.prc
1 low 7 21.88 21.88 21.88
2 medium 10 31.25 31.25 53.12
3 high 3 9.38 9.38 62.50
4 extreme 10 31.25 31.25 93.75
6 6 1 3.12 3.12 96.88
8 8 1 3.12 3.12 100.00
NA <NA> 0 0.00 NA NA
現在我們可以同時看到標簽和值,但是,仍然存在基於標簽調用數據的問題
cars[cars$carb==1,]
mpg cyl disp hp drat wt qsec vs am gear carb
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
cars[cars$carb=="low",]
[1] mpg cyl disp hp drat wt qsec vs am gear carb
<0 rows> (or 0-length row.names)
任何有關因子標簽的建議以及通過標簽和值調用因子的方法都將不勝感激。 同時,我希望我的替代方案有所幫助。
你一開始就發出了一點噓聲。
cars$carb <- lfactor(c(1:4), ...)
應該
cars$carb <- lfactor(cars$carb, ...)
檢查:
> mtcars$carb=="medium"
[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE TRUE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE TRUE FALSE
[25] TRUE FALSE TRUE TRUE FALSE NA NA TRUE
> mtcars$carb==2
[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE TRUE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE TRUE FALSE
[25] TRUE FALSE TRUE TRUE FALSE NA NA TRUE
> all((mtcars$carb=="medium")==(mtcars$carb==2), na.rm=TRUE)
[1] TRUE
我有點驚訝cars$carb <- lfactor(c(1:4), ...)
沒有觸發錯誤,或者至少是警告。 所以我做了實驗:
mtcars$carb <- lfactor(c(1:5),
levels = c(1:4),
labels = c("low", "medium", "high", "extreme" ))
Error in `$<-.data.frame`(`*tmp*`, carb, value = c(1L, 2L, 3L, 4L, NA)) :
replacement has 5 rows, data has 32
這讓我認為正在使用 R 的回收規則,盡管有人可能會爭辯說 R至少應該對不正確的命令發出警告。 類似於: "Warning: recycling vector to match length of dim(cars)[1]"
不管錯誤和缺乏警告,你(OP)接着說:
“我注意到根據包裝說明,它變成了一個因素,所以我做了檢查”
我會列出新的向量,因為我並不總是相信我的編碼能力,而且每當您對數據進行任何更改時,這總是很好的做法。 就像是:
> table(cars$carb)
low medium high extreme
8 8 8 8
可能就足夠了。 這將發出警告鈴聲,因為您會意識到原始carb
變量包含 6 個級別,而不是 4 個,以及具有相同頻率計數的級別。 然后,您可能已經弄清楚之前的命令出了什么問題。
我不熟悉 lfactor 包。 我不明白為什么lfactor
函數沒有為您原來的錯誤命令分配數字級別。 如果您運行llevels
函數,它會返回 NULL,這就是為什么您使用數值的比較對每個元素都返回 FALSE。
llevels(cars$carb)
NULL
感謝@Edward,就像提供的指導一樣,我能夠隨意玩耍並讓 lfactor 函數按照我的意願去做。
當將該函數應用於數據數組(而不是單個命名對象;即,cars[,9:11] 而不是 car$carb,它將向量轉換為字符而不是向量
cars <- mtcars
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
cars[,9:11] <- lfactor(cars[,9:11],
levels = c(1:4),
labels = c("low", "medium", "high", "extreme"))
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : chr NA NA NA NA ...
$ gear: chr NA NA NA NA ...
$ carb: chr NA NA NA NA ...
在嘗試了自制函數、apply 和許多其他命令之后,我想出的解決方案是使用 for 循環:
vars <- c("am", "gear", "carb")
for(i in vars){
cars[,i] <- lfactor(cars[,i],
levels = c(1:4),
labels = c("low", "medium", "high", "extreme"))
}
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : Factor w/ 4 levels "low","medium",..: 1 1 1 NA NA NA NA NA NA NA ...
..- attr(*, "llevels")= int 1 2 3 4
$ gear: Factor w/ 4 levels "low","medium",..: 4 4 4 3 3 3 3 4 4 4 ...
..- attr(*, "llevels")= int 1 2 3 4
$ carb: Factor w/ 4 levels "low","medium",..: NA NA NA NA NA NA NA NA NA NA ...
..- attr(*, "llevels")= int 1 2 3 4
這也允許我通過標簽或值調用對象
head(cars$gear==3)
[1] FALSE FALSE FALSE TRUE TRUE TRUE
head(cars$gear=="high")
[1] FALSE FALSE FALSE TRUE TRUE TRUE
我希望這篇文章可以幫助其他可能與我有類似情況的人
再次感謝愛德華!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.