標記因子並保留數值

Question

我在創建可以通過數值和“標簽”引用的因子時遇到了一些問題。

據說 lfactors 包可以做到這一點，但是我一直無法執行它。 所以，這就是我所做的：

library(lfactors)
cars <- mtcars


str(cars)

'data.frame':   32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

如果我們查看“碳水化合物”列（可能反映碳排放量），它是一個數字

所以使用 lfactors 包我改變了它：

cars$carb <- lfactor(c(1:4),
                     levels = c(1:4), 
                     labels = c("low", "medium", "high", "extreme" ))
str(cars)

'data.frame':   32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: Factor w/ 4 levels "low","medium",..: 1 2 3 4 1 2 3 4 1 2 ..

我注意到它變成了一個因素，根據包裝說明，所以我做了檢查

levels(cars$carb) 
[1] "low"     "medium"  "high"    "extreme" # correct

cars$carb == "medium"
[1] FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE
[23] FALSE FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE # correct

cars$carb == 2  
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # incorrect

我仍然無法通過級別和值來引用該因素，所以我想知道是否有人以前使用過這個包或者有什么替代建議？

一個接近的選擇，但不完全存在

盡管它並不完美，因為我無法通過值和標簽來引用這些因素，但我找到了一種至少允許我存儲兩者的方法，我認為這可能對我的位置的其他人有用：

library(sjlabelled)
library(magrittr)
library(sjmisc)

cars <- mtcars
str(cars)

'data.frame':   32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

frq(cars$carb)

x <numeric>
# total N=32  valid N=32  mean=2.81  sd=1.62
 val frq raw.prc valid.prc cum.prc
   1   7   21.88     21.88   21.88
   2  10   31.25     31.25   53.12
   3   3    9.38      9.38   62.50
   4  10   31.25     31.25   93.75
   6   1    3.12      3.12   96.88
   8   1    3.12      3.12  100.00
  NA   0    0.00        NA      NA

所以這就是我們得到的數字形式，對因子的轉換保留了預期的形式：

cars$carb <- as_factor(cars$carb)

str(cars$carb)

Factor w/ 6 levels "1","2","3","4",..: 4 4 1 1 2 1 4 2 2 4 ...

frq(cars$carb)

<categorical>
# total N=32  valid N=32  mean=2.81  sd=1.62

 val frq raw.prc valid.prc cum.prc
   1   7   21.88     21.88   21.88
   2  10   31.25     31.25   53.12
   3   3    9.38      9.38   62.50
   4  10   31.25     31.25   93.75
   6   1    3.12      3.12   96.88
   8   1    3.12      3.12  100.00
  NA   0    0.00        NA      NA

現在我們有了分類形式，我們可以標記值（在這個例子中我將忽略 6 和 8）

cars$carb<- set_labels(
  cars$carb,
  labels = c(
    `1` = "low",
    `2` = "medium", 
    `3` = "high",
    `4` = "extreme"
    ))

frq(cars$carb)

<categorical>
# total N=32  valid N=32  mean=2.81  sd=1.62

 val   label frq raw.prc valid.prc cum.prc
   1     low   7   21.88     21.88   21.88
   2  medium  10   31.25     31.25   53.12
   3    high   3    9.38      9.38   62.50
   4 extreme  10   31.25     31.25   93.75
   6       6   1    3.12      3.12   96.88
   8       8   1    3.12      3.12  100.00
  NA    <NA>   0    0.00        NA      NA

現在我們可以同時看到標簽和值，但是，仍然存在基於標簽調用數據的問題

cars[cars$carb==1,]
                mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Valiant        18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona  21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1

cars[cars$carb=="low",]

 [1] mpg  cyl  disp hp   drat wt   qsec vs   am   gear carb
<0 rows> (or 0-length row.names)

任何有關因子標簽的建議以及通過標簽和值調用因子的方法都將不勝感激。 同時，我希望我的替代方案有所幫助。

Answer 1

你一開始就發出了一點噓聲。

cars$carb <- lfactor(c(1:4), ...)

應該

cars$carb <- lfactor(cars$carb, ...)

檢查：

> mtcars$carb=="medium"
 [1] FALSE FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE  TRUE FALSE
[25]  TRUE FALSE  TRUE  TRUE FALSE    NA    NA  TRUE

> mtcars$carb==2
 [1] FALSE FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE  TRUE FALSE
[25]  TRUE FALSE  TRUE  TRUE FALSE    NA    NA  TRUE

> all((mtcars$carb=="medium")==(mtcars$carb==2), na.rm=TRUE)
[1] TRUE

我有點驚訝cars$carb <- lfactor(c(1:4), ...)沒有觸發錯誤，或者至少是警告。 所以我做了實驗：

mtcars$carb <- lfactor(c(1:5),
                        levels = c(1:4), 
                        labels = c("low", "medium", "high", "extreme" ))

Error in `$<-.data.frame`(`*tmp*`, carb, value = c(1L, 2L, 3L, 4L, NA)) :
replacement has 5 rows, data has 32

這讓我認為正在使用 R 的回收規則，盡管有人可能會爭辯說 R至少應該對不正確的命令發出警告。 類似於： "Warning: recycling vector to match length of dim(cars)[1]"

不管錯誤和缺乏警告，你（OP）接着說：

“我注意到根據包裝說明，它變成了一個因素，所以我做了檢查”

我會列出新的向量，因為我並不總是相信我的編碼能力，而且每當您對數據進行任何更改時，這總是很好的做法。 就像是：

> table(cars$carb)

    low  medium    high extreme 
      8       8       8       8

可能就足夠了。 這將發出警告鈴聲，因為您會意識到原始carb變量包含 6 個級別，而不是 4 個，以及具有相同頻率計數的級別。 然后，您可能已經弄清楚之前的命令出了什么問題。

我不熟悉 lfactor 包。 我不明白為什么lfactor函數沒有為您原來的錯誤命令分配數字級別。 如果您運行llevels函數，它會返回 NULL，這就是為什么您使用數值的比較對每個元素都返回 FALSE。

llevels(cars$carb)
NULL

Answer 2

感謝@Edward，就像提供的指導一樣，我能夠隨意玩耍並讓 lfactor 函數按照我的意願去做。

將 lfactor 應用於多列的問題

當將該函數應用於數據數組（而不是單個命名對象；即，cars[,9:11] 而不是 car$carb，它將向量轉換為字符而不是向量

cars <- mtcars
str(cars)
'data.frame':   32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

cars[,9:11] <- lfactor(cars[,9:11],
                       levels = c(1:4),
                       labels = c("low", "medium", "high", "extreme"))
str(cars)
'data.frame':   32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : chr  NA NA NA NA ...
 $ gear: chr  NA NA NA NA ...
 $ carb: chr  NA NA NA NA ...

這個問題的解決方案

在嘗試了自制函數、apply 和許多其他命令之后，我想出的解決方案是使用 for 循環：

vars <- c("am", "gear", "carb")
for(i in vars){
cars[,i] <- lfactor(cars[,i],
                       levels = c(1:4),
                       labels = c("low", "medium", "high", "extreme"))
}

str(cars)
'data.frame':   32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : Factor w/ 4 levels "low","medium",..: 1 1 1 NA NA NA NA NA NA NA ...
  ..- attr(*, "llevels")= int  1 2 3 4
 $ gear: Factor w/ 4 levels "low","medium",..: 4 4 4 3 3 3 3 4 4 4 ...
  ..- attr(*, "llevels")= int  1 2 3 4
 $ carb: Factor w/ 4 levels "low","medium",..: NA NA NA NA NA NA NA NA NA NA ...
  ..- attr(*, "llevels")= int  1 2 3 4

這也允許我通過標簽或值調用對象

head(cars$gear==3)
[1] FALSE FALSE FALSE  TRUE  TRUE  TRUE

head(cars$gear=="high")
[1] FALSE FALSE FALSE  TRUE  TRUE  TRUE

我希望這篇文章可以幫助其他可能與我有類似情況的人

再次感謝愛德華！

標記因子並保留數值

問題描述

一個接近的選擇，但不完全存在

2 個解決方案

解決方案1
1 已采納 2020-02-20 00:28:01

解決方案2
0 2020-02-20 16:36:04

將 lfactor 應用於多列的問題

這個問題的解決方案

標記因子並保留數值

問題描述

一個接近的選擇，但不完全存在

2 個解決方案

解決方案1 1 已采納 2020-02-20 00:28:01

解決方案2 0 2020-02-20 16:36:04

將 lfactor 應用於多列的問題

這個問題的解決方案

解決方案1
1 已采納 2020-02-20 00:28:01

解決方案2
0 2020-02-20 16:36:04