如何從R中的文本值創建分類變量

Question

我有一個帶有分類變量Weather的數據集。 該變量有3個不同的文本值，即“Dry”，“Drizzle”和“Rain”。

我想創建另一個變量，我可以為這些變量分配數值。 例如， Dry將為1 ， Drizzle將為2 ， Rain將為3 。

作為輔助信息， weather變量將用於預測水系統中的阻塞，因此我將在某種線性回歸模型中使用它。

Answer 1

我們可以轉換為factor然后強制轉換為integer

as.integer(factor(df1$Weather, levels = c("Dry", "Drizzle", "Rain"))

Answer 2

為了記錄，這也可以做到這一點：

match(df1$Weather, c("Dry", "Drizzle", "Rain"))

這比@ akrun的解決方案略快（無論如何已經非常快）：

x <- sample(c("Dry", "Drizzle", "Rain"), 1e6, rep=T)

microbenchmark::microbenchmark(
   as.integer(factor(x, levels = c("Dry", "Drizzle", "Rain"))),
   match(x, c("Dry", "Drizzle", "Rain"))
)

Unit: milliseconds
expr      min       lq       mean     median       
14.31158  18.13069  23.19702 20.98414 23.10840 
13.30326  16.00538  19.07544 17.59751 19.53679

Answer 3

您可以轉換為有序因子並為其指定標簽：

data <- data.frame(Weather = c("Drizzle", "Rain", "Drizzle", "Rain", "Dry")) factor(data$Weather, levels = c("Dry", "Drizzle", "Rain"), labels = c(1, 2, 3), ordered=TRUE)

哪個將返回：

[1] 2 3 2 3 1 Levels: 1 < 2 < 3

您可能還想了解有關在線性回歸模型中使用有序因子的信息。 這個問題可能是一個好的開始： https ： //stats.stackexchange.com/questions/33413/continuous-dependent-variable-with-ordinal-independent-variable

如何從R中的文本值創建分類變量

問題描述

3 個解決方案

解決方案1
5 已采納 2016-06-03 18:33:29

解決方案2
3 2016-06-04 07:42:42

解決方案3
1 2016-06-03 18:54:45

如何從R中的文本值創建分類變量

問題描述

3 個解決方案

解決方案1 5 已采納 2016-06-03 18:33:29

解決方案2 3 2016-06-04 07:42:42

解決方案3 1 2016-06-03 18:54:45

解決方案1
5 已采納 2016-06-03 18:33:29

解決方案2
3 2016-06-04 07:42:42

解決方案3
1 2016-06-03 18:54:45