簡體   English   中英

R-分析類別變量對連續變量的影響

[英]R - Analyse impact of categorical variables on continuous variable

我正在嘗試分析R中的數據集,該數據集中我隨時間推移的商品銷售情況,並且我想了解分類變量對銷售數量的影響。

library("data.table")

qty <- c(100,10000,100,200,150,9000)
flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit")
category <- c("Multiple","Multiple","White","Multiple","Other","White")

sales_data <- data.frame(qty,flavour,category)

str(sales_data)

'data.frame':   6 obs. of  3 variables:
 $ qty     : num  100 10000 100 200 150 9000
 $ flavour : Factor w/ 3 levels "Fruit","Herb",..: 3 2 3 3 2 1
 $ category: Factor w/ 3 levels "Multiple","Other",..: 1 1 3 1 2 3

我一直在研究多元回歸和簡單的線性回歸,但我覺得自己可能走錯了路。 我的理解是,我可以使用簡單的線性回歸來確定2個連續變量之間的關系。 我可以看到有一種使用多元回歸的方法來理解分類變量和連續變量之間的關系,但是我發現的示例似乎僅限於二進制值。 例如有人吸煙還是不吸煙。 鑒於每個分類變量都有多個值,多元回歸是正確的方法還是我完全偏離了軌道?

我的實際數據集包含大約10個類別變量,其中一些與位置有關,其他與品牌有關。

任何幫助將不勝感激。 如果這是在錯誤的地方,或者我錯過了明顯的事情,我深表歉意-我正在同時學習統計信息和R,因此很快就感到困惑

您當然可以有一個連續的因變量( qty )以及連續和分類預測變量的組合,並且它們不一定是二進制的。 類別變量應屬於"factor"類。 對於問題中顯示的兩個類別/因子變量:

fm <- lm(qty ~., sales_data)
summary(fm)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM