簡體   English   中英

匯總具有連續變量和分類變量的數據集

[英]Summarizing a dataset with continuous and categorical variables

如果數據集包含混合變量:數字變量和分類變量,那么除了summary(dataset)之外,還有一種方法可以對其進行匯總,在匯總變量中,每個類別的計數包括在分類變量中,平均值包括sd,在數字變量中包括sd?

目前,我在檢查了每一列為數字或類別后編寫了一個代碼段以生成列表。 但是,更簡單的功能將很有用。

一個例子可以是data.frame(v1 = c(1:3),v2 = c(“ a”,“ b”,“ b”))),其中所需的輸出是:

V1,類型(num / cat),平均值(v1),sd(v1)V2,類型(num / cat),a,count(a),b,count(b)

我認為您正在尋找軟件包“ Hmisc”中的describe()函數。 有關詳細信息,請參見文檔

是的,我在表中查找類別,在平均值表中查找數字變量。 對於研究論文中的描述性統計,通常會報告以下內容。

我寫了以下內容:

agg_function <- function(data_agg)
{
desc_list <- list()

    for(j in 1:ncol(data_agg))
    {
        if(is.factor(data_agg[,j]))
        {
          desc_list[[j]] <- list(Variable = colnames(data_agg) [j],table(data_agg[,j]))   ## Table of counts of labels of categorical variables
        }
        else  
        {
          desc_list[[j]] <- data.frame(Variable = colnames(data_agg)[j],Mean=mean(data_agg[,j],na.rm=T),SD = sd(data_agg[,j],na.rm=T)) ## First and second moments of numerical variables
        }
}
return(desc_list)
}

但是,有沒有更有效的解決方案?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM