如何編寫對數據框中所有組/變量組合進行配對 t 檢驗的函數

Question

我具有類似於一個數據幀data下面創建的：

ID <- data.frame(ID=rep(c(12,122,242,329,595,130,145,245,654,878),each=5))
Var <- data.frame(Variable=c("Copper","Iron","Lead","Zinc","CaCO"))
n <- 10
Variable <- do.call("rbind",replicate(n,Var,simplify=F))
Location <- rep(c("Alpha","Beta","Gamma"), times=c(20,20,10))
Location <- data.frame(Location)
set.seed(1)
FirstPt<- data.frame(FirstPt=sample(1:100,50,replace=T))
LastPt <- data.frame(LastPt=sample(1:100,50,replace=T))
First3<- data.frame(First3=sample(1:100,50,replace=T))
First5<- data.frame(First5=sample(1:100,50,replace=T))
First7<- data.frame(First7=sample(1:100,50,replace=T))
First10<- data.frame(First10=sample(1:100,50,replace=T))
Last3<- data.frame(Last3=sample(1:100,50,replace=T))
Last5<- data.frame(Last5=sample(1:100,50,replace=T))
Last7<- data.frame(Last7=sample(1:100,50,replace=T))
Last10<- data.frame(Last10=sample(1:100,50,replace=T))
data <- cbind(ID,Location,Variable,FirstPt,LastPt,First3,First5,First7,
              First10,Last3,Last5,Last7,Last10)

這可能是一個由兩部分組成的問題，但我想編寫一個函數，該函數將所有相同的Variables （例如，所有觀察結果為Copper ） FirstPt ，並在數字列的所有可能組合之間進行配對 t 檢驗（ FirstPt : Last10 )。 我希望它像這樣返回數據框中的 p 值：

Test                        P-Value
FirstPt.vs.LastPt             …
FirstPt.vs.First3             … 
ect...                        …

這可能是第二個函數，但我也想在觀察按Location分組后執行此操作，以便輸出數據框如下所示：

Test                                   P-Value
FirstPt.vs.LastPt.InAlpha
FirstPt.vs.LastPt.InBeta        
ect...

Answer 1

我想這就是你想要的。 關鍵是使用 group_by 並從 tidyverse 做。

df <- NULL
for(i in (4:(ncol(data)-1))){
  for(j in ((i+1):ncol(data))){
    df <- rbind(df,data %>% 
                  group_by(Location) %>% 
                  do(data.frame(pval = t.test(.[[i]],.[[j]], data = .)$p.value)) %>% 
                  ungroup() %>% 
                  mutate(Test = paste0(colnames(data)[i],'.vs.',colnames(data)[j]))
                )
  }
}
df$Test <- paste0(df$Test,'.In',df$Location)

Answer 2

也許，您可以使用以下代碼實現您想要的：

library(dplyr)
library(tidyr)

data %>%
  pivot_longer(cols = FirstPt:Last10) %>%
  group_by(Variable) %>%
  summarise(p_value = list(combn(name, 2, function(x) 
                       t.test(value[name == x[1]], value[name == x[2]])$p.value)), 
            test = list(combn(name, 2, paste, collapse = "_"))) %>%
  unnest(cols = c(test, p_value))


#  Variable p_value test           
#   <fct>      <dbl> <chr>          
# 1 CaCO       0.915 FirstPt_LastPt 
# 2 CaCO       0.529 FirstPt_First3 
# 3 CaCO       0.337 FirstPt_First5 
# 4 CaCO       0.350 FirstPt_First7 
# 5 CaCO       0.395 FirstPt_First10
# 6 CaCO       0.765 FirstPt_Last3  
# 7 CaCO       0.204 FirstPt_Last5  
# 8 CaCO       0.873 FirstPt_Last7  
# 9 CaCO       0.479 FirstPt_Last10 
#10 CaCO       1     FirstPt_FirstPt
# … with 24,740 more rows

要按Location分組，您可以將其添加到group_by命令中，並將其余代碼保持原樣。

Answer 3

您可以使用一個函數完成這兩項操作：

library(tidyverse)

t.test.by.group.combos <- function(.data, groups){
  by <-  gsub(x = rlang::quo_get_expr(enquo(groups)), pattern = "\\((.*)?\\)", replacement = "\\1")[-1]
  .data %>%
    group_by(!!!groups) %>%
    select_if(is.integer) %>%
    group_split() %>%
    map(.,
      ~pivot_longer(., cols = (FirstPt:Last10), names_to = "name", values_to = "val") %>%
        nest(data = val) %>%
        full_join(.,.,by = by) %>%
        filter(name.x != name.y) %>%
        mutate(test = paste(name.x, "vs",name.y, !!!groups, sep = "."),
               p.value = map2_dbl(data.x,data.y, ~t.test(unlist(.x), unlist(.y))$p.value)) %>%
        select(test,p.value)%>%
      filter(!duplicated(p.value))
    ) %>%
    bind_rows() 
}


t.test.by.group.combos(data, vars(Variable))
#> # A tibble: 225 x 2
#>    test                    p.value
#>    <chr>                     <dbl>
#>  1 FirstPt.vs.LastPt.CaCO    0.511
#>  2 FirstPt.vs.First3.CaCO    0.184
#>  3 FirstPt.vs.First5.CaCO    0.494
#>  4 FirstPt.vs.First7.CaCO    0.354
#>  5 FirstPt.vs.First10.CaCO   0.893
#>  6 FirstPt.vs.Last3.CaCO     0.496
#>  7 FirstPt.vs.Last5.CaCO     0.909
#>  8 FirstPt.vs.Last7.CaCO     0.439
#>  9 FirstPt.vs.Last10.CaCO    0.146
#> 10 LastPt.vs.First3.CaCO     0.578
#> # … with 215 more rows

t.test.by.group.combos(data, vars(Variable, Location))
#> # A tibble: 674 x 2
#>    test                          p.value
#>    <chr>                           <dbl>
#>  1 FirstPt.vs.LastPt.CaCO.Alpha    0.850
#>  2 FirstPt.vs.First3.CaCO.Alpha    0.822
#>  3 FirstPt.vs.First5.CaCO.Alpha    0.895
#>  4 FirstPt.vs.First7.CaCO.Alpha    0.810
#>  5 FirstPt.vs.First10.CaCO.Alpha   0.645
#>  6 FirstPt.vs.Last3.CaCO.Alpha     0.870
#>  7 FirstPt.vs.Last5.CaCO.Alpha     0.465
#>  8 FirstPt.vs.Last7.CaCO.Alpha     0.115
#>  9 FirstPt.vs.Last10.CaCO.Alpha    0.474
#> 10 LastPt.vs.First3.CaCO.Alpha     0.991
#> # … with 664 more rows

這是一個冗長的函數，但通常我們按groups參數groups ，然后選擇組和任何整數列，然后按組拆分數據幀。 之后，我們映射所有變量組合並對每個組合執行 t.tests。 最后，我們將所有組重新加入一個數據幀。

如何編寫對數據框中所有組/變量組合進行配對 t 檢驗的函數

問題描述

3 個解決方案

解決方案1
0 2020-01-22 22:27:40

解決方案2
0 2020-01-23 02:40:48

解決方案3
0 已采納 2020-01-23 13:12:31

如何編寫對數據框中所有組/變量組合進行配對 t 檢驗的函數

問題描述

3 個解決方案

解決方案1 0 2020-01-22 22:27:40

解決方案2 0 2020-01-23 02:40:48

解決方案3 0 已采納 2020-01-23 13:12:31

解決方案1
0 2020-01-22 22:27:40

解決方案2
0 2020-01-23 02:40:48

解決方案3
0 已采納 2020-01-23 13:12:31