簡體   English   中英

r使用多個因素匯總的data.table

[英]r data.table summarizing using more than one factor

我有下面的data.table

'data.frame':   66977 obs. of  16 variables:
 $ SUBS                         : int  
 $ CITY                         : Factor w/ 18 levels 
 $ VALUE_SEG                    : Factor w/ 7 levels 
 $ region                       : Factor w/ 5 levels 
 $ SUM.DATA_PPU_REV_DEC.        : num  
 $ SUM.DATA_BUNDLE_REV_DEC.     : int  
 $ SUM.DATA_USAGE_TOTAL_KB_DEC. : num  
 $ SUM.THIS_MONTH_REV_DEC.      : num  
 $ SUM.VOICE_ONNET_DURATION_DEC.: num  
 $ SUM.VOICE_ONNET_REV_DEC.     : num  
 $ SUM.VOICE_OFFNET_REV_DEC.    : num  
 $ SUM.SMS_ONNET_REV_DEC.       : num  
 $ SUM.SMS_OFFNET_REV_DEC.      : int  
 $ SUM.RECHARGE_DEC.            : int  
 $ STATUS_DEC                   : Factor w/ 5 levels 
 $ TYPE_DEC_2                   : Factor w/ 6 levels 

我想按兩個因子變量將其分組,比如說VALUE_SEG和區域,獲取數字的總和,並為每個因子變量創建新的庫侖,並進行觀察。 我試過聚合,ddply和其他帶有varians類型的錯誤:(預先感謝

這是使用data.table的選項

library(data.table)
setDT(data)[,lapply(.SD, function(x) if(is.numeric(x)) sum(x) else .N),
                          by= list(VALUE_SEG,region)]

我建議您將數值變量和因子變量分開,並使用dplyr進行dplyr 可能像

library(dplyr)

data %>% select(VALUE_SEG,region,SUM..... all numeric variables) %>% 
   group_by(VALUE_SEG,region) %>% summarize_each(funs(sum)) -> summary1

## For factors

data %>% select(VALUE_SEG,region,SUM..... all factors variables) %>% 
   group_by(VALUE_SEG,region) %>% summarize_each(funs(n)) -> summary2

## Then you can merge these results

Summary <- merge(summary1,summary2,by="VALUE_SEG")

有關使用此軟件包的更多詳細信息,請訪問此鏈接

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM