簡體   English   中英

防止dcast聚合數據

[英]Prevent dcast from aggregating data

我有類似的數據:

rating       title
5            Bean
5            Bean
4            Bean
5            Bean
5            Egg
4            Egg
3            Bacon
2            Bacon

我想像

dcast(data, rating ~ title, value.var="rating")

因此,標題成為列標題,並且下面列出了每個標題的等級。 但是,每次它將它們聚合在一起時,但是我不希望這樣。

read.table(text="rating       title
5            Bean
5            Bean
4            Bean
5            Bean
5            Egg
4            Egg
3            Bacon
2            Bacon", header=TRUE, stringsAsFactors=FALSE) %>%
  dplyr::mutate(id = 1:n()) %>% 
  tidyr::spread(title, rating, fill = 0) %>% 
  dplyr::select(-id)
##   Bacon Bean Egg
## 1     0    5   0
## 2     0    5   0
## 3     0    4   0
## 4     0    5   0
## 5     0    0   5
## 6     0    0   4
## 7     3    0   0
## 8     2    0   0

可以使用dplyrtidyverse軟件包來完成:

library(dplyr)
library(tidyverse)

data<-data.frame(rating=c(5,5,4,5,5,4,3,2),
                 title=c("Bean","Bean","Bean","Bean","Egg","Egg","Bacon","Bacon"))

代碼:

data%>%mutate(dummy = 1:nrow(data)) %>% 
  spread(title, rating, fill = 0) %>% 
  select(-dummy)%>%t()

輸出:

     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
Bacon    0    0    0    0    0    0    3    2
Bean     5    5    4    5    0    0    0    0
Egg      0    0    0    0    5    4    0    0

data.table使您對dcast的使用有意義,我將提供一個使用data.table的替代方法。 與其他答案稍有不同,我想知道您是否打算將其用於演示副實際摘要,因為不同評分之間沒有明顯的上下文相關性。

library(data.table)
DT <- fread('rating       title
5            Bean
5            Bean
4            Bean
5            Bean
5            Egg
4            Egg
3            Bacon
2            Bacon')

首先,我們需要分配一些保留在數據透視表中的“ id”。 類似地,由於這是為了演示(並且我們可能希望在未使用的空格中輸入空白,反之為0NA ),因此我將轉換

DT$rating <- as.character(DT$rating)
DT[, id := seq_len(.N), by="title"]
DT
#    rating title id
# 1:      5  Bean  1
# 2:      5  Bean  2
# 3:      4  Bean  3
# 4:      5  Bean  4
# 5:      5   Egg  1
# 6:      4   Egg  2
# 7:      3 Bacon  1
# 8:      2 Bacon  2


dcast(DT, id ~ title, value.var = "rating", fill = "")[,id := NULL,][]
#    Bacon Bean Egg
# 1:     3    5   5
# 2:     2    5   4
# 3:          4    
# 4:          5    

請注意,這並非旨在進行計算和分析,僅用於演示。 如果您想保留所有數字,那么最終會得到

# starting with fresh `DT`, no as.character done
DT[, id := seq_len(.N), by="title"]
dcast(DT, id ~ title, value.var = "rating")[,id := NULL,][]
#    Bacon Bean Egg
# 1:     3    5   5
# 2:     2    5   4
# 3:    NA    4  NA
# 4:    NA    5  NA

或選擇使用dcast(..., fill=0)NA替換為0 s。

(在這種情況下,仍然不清楚每個行上的三個值如何相互關聯,但是在實際數據/分析中可能有意義。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM