簡體   English   中英

使用 dplyr 的多列的行中位數

[英]Rowwise median for multiple columns using dplyr

給定以下數據集,我想為每一行計算列 M1、M2 和 M3 的中值。 我正在尋找一種解決方案,其中將最后一列添加到名為“中位數”的數據框中。 列名 (M1:M3) 不應直接使用(在原始數據集中,還有更多列,而不僅僅是 3 個)。

# A tibble: 8 x 5
 I1    M1    M2    I2    M3
<int> <int> <int> <int> <int>
1     3     4     5     3     5
2     2     2     2     2     1
3     2     2     2     2     2
4     3     1     3     3     1
5     2     1     3     3     1
6     3     2     4     4     3
7     3     1     3     4     1
8     2     1     3     2     3

您可以使用以下方法加載數據集:

df = structure(list(I1 = c(3L, 2L, 2L, 3L, 2L, 3L, 3L, 2L), M1 = c(4L, 
2L, 2L, 1L, 1L, 2L, 1L, 1L), M2 = c(5L, 2L, 2L, 3L, 3L, 4L, 3L, 
3L), I2 = c(3L, 2L, 2L, 3L, 3L, 4L, 4L, 2L), M3 = c(5L, 1L, 2L, 
1L, 1L, 3L, 1L, 3L)), class = c("tbl_df", "tbl", "data.frame"
), row.names = c(NA, -8L), .Names = c("I1", "M1", "M2", "I2", 
"M3"))

我知道已經提出了幾個類似的問題。 但是,發布的大多數解決方案都使用rowMeansrowSums 我正在尋找一個解決方案,其中:

  1. 不能使用“行函數”。
  2. 解決方案是一個簡單的 dplyr 解決方案

(2) 的原因是我正在向初學者教授“tidyverse”。

我們可以使用rowMedians

library(matrixStats)
library(dplyr)
df %>% 
    mutate(Median = rowMedians(as.matrix(.[grep('M\\d+', names(.))])))

或者,如果我們只需要使用tidyverse功能,將其轉換為“長”與格式gathersummarizerow ,並獲得median的“價值”列

df %>% 
    rownames_to_column('rn') %>%
    gather(key, value, starts_with('M')) %>%
    group_by(rn) %>% 
    summarise(Median = median(value)) %>%
    ungroup %>% 
    select(-rn) %>%
    bind_cols(df, .)

或者另一個選項是來自dplyr rowwise() (希望該行不是問題)

df %>% 
   rowwise() %>% 
   mutate(Median =  median(c(!!! rlang::syms(grep('M', names(.), value=TRUE)))))

給定一個帶有一些數值的數據框df

df <- structure(list(X0 = c(0.82046171427112, 0.836224720981912, 0.842547521493854, 
0.848014287631906, 0.850943494153631, 0.85425398956647, 0.85616876970771, 
0.856855792247478, 0.857471048654811, 0.857507363153284, 0.874487063791594, 
1.70684558846347, 1.95711031206168, 6.84386713155156), X1 = c(0.755674148966666, 
0.765242580861224, 0.774422478168495, 0.776953642833977, 0.778128315184819, 
0.778611604461183, 0.778624581647491, 0.778454002430202, 1.52708579075974, 
13.0356519295685, 18.0590093408357, 21.1371199340156, 32.4192814934364, 
33.2355314147089), X2 = c(0.772236670327724, 0.788112332251601, 
0.797695511542613, 0.804257521548174, 0.809815828400878, 0.816592605516508, 
0.819421106011397, 0.821734473885381, 0.822561946509595, 0.822334970491528, 
0.822404634095793, 2.66875340820162, 1.40412743557514, 6.33377768022403
), X3 = c(0.764363881671609, 0.788288196346034, 0.79927498357549, 
0.805446784334039, 0.810604881970155, 0.814634331592811, 0.817002594424753, 
0.818129844752095, 0.818572101954132, 0.818630700031836, 3.06323952591121, 
6.4477868357554, 11.4657041958038, 9.27821049066848)), class = "data.frame", row.names = c(NA, 
-14L))

可以使用基數 R 輕松計算行式中位數,如下所示:

df$median <- sapply(
    seq(nrow(df)), 
    function(i) df[i, 1:4] %>% unlist %>% median
)

上面我使用數字范圍手動選擇列,但為了滿足dplyr要求,您可以使用dplyr::select()來選擇您的列:

df$median <- sapply(
    df %>% nrow %>% seq, 
    function(i) df[i, ] %>% 
        dplyr::select(X1, X2) %>% 
        unlist %>% median
) 

我喜歡這種方法,因為您不必搜索不同的函數來計算任何東西。

例如,標准偏差:

df$sd <- sapply(
    df %>% nrow %>% seq, 
    function(i) df[i, ] %>% 
        dplyr::select(X1, X2) %>% 
        unlist %>% sd
) 

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM