R根據列名對行值求和

Question

我有一個包含 10,000 多列和 10,000 行的數據集。 我正在嘗試根據列名添加行的值。

數據集看起來像這樣

data <- tibble(date = c('1/1/2018','2/1/2018','3/1/2018'),
              x1 = c(1, 11, 111),
              x2 = c(2, 22, 222),
              x1_1 = c(3, 333, 333),
              x2_1 = c(4, 44, 44),
              x1_2 = c(5, 55, 555),
              x2_2 = c(6, 66, 666),)

我正在嘗試創建一個包含日期列、x1 列和 x2 列的新表，其中第 1 行的 x1 值 = 1+3+5，第 2 行的 x2 值 = 22+44+66 等.

任何幫助將非常感激。

Answer 1

這是一個for循環方法。 我使用stringr ，但我們可以很容易地使用基本的正則表達式函數來保持它的無依賴關系。

library(stringr)
name_stems = unique(str_replace(names(data)[-1], "_.*", ""))
result = data[, "date", drop = FALSE]
for(i in seq_along(name_stems)) {
  result[[name_stems[i]]] = 
    rowSums(data[
      str_detect(
        names(data),
        pattern = paste0(name_stems[i], "_")
      )
    ])
}

result
# # A tibble: 3 × 3
#   date        x1    x2
#   <chr>    <dbl> <dbl>
# 1 1/1/2018     9    12
# 2 2/1/2018   399   132
# 3 3/1/2018   999   932

Answer 2

您的數據是寬格式的。 實現目標的一種方法是將數據轉換為長格式，然后根據索引（x1 和 x2）對它們進行分組，計算每個日期的每個組的總和，最后將結果轉換回寬格式以創建列基於指數。

library(tidyverse)

data |> 
    pivot_longer(cols = starts_with("x"), values_to = "x.values") |>
    mutate(xgroup = substr(name, 1,2)) |> 
    group_by(date,xgroup) |>
    summarise(xsums = sum(x.values)) |> 
    pivot_wider(values_from = xsums, names_from = xgroup )

#  date        x1    x2
#  <chr>    <dbl> <dbl>
#1 1/1/2018     9    12
#2 2/1/2018   399   132
#3 3/1/2018   999   932

更新

為了僅包括列x1和x1_並排除任何其他列，即使它以x1開頭，可以使用以下正則表達式模式： "x1$|(x1_).*" 。 類似的模式可用於僅包含列x2和x2_ 。 例如：

s <- c("x100_1", "x10", "x1", "x1_1", "x1_2", "x2", "x2_1", "x2_2", "x20", "x20_1")
s
#[1] "x100_1" "x10"    "x1"     "x1_1"   "x1_2"   "x2"     "x2_1"   "x2_2"   "x20"   
#[10] "x20_1" 

s |> str_extract("x1$|(x1_).*")
#[1] NA     NA     "x1"   "x1_1" "x1_2" NA     NA     NA     NA     NA

s |> str_extract("x2$|(x2_).*")
#[1] NA     NA     NA     NA     NA     "x2"   "x2_1" "x2_2" NA     NA

然后，此模式可用於創建僅包含x1和x1_列的組和僅包含x2和x2_列的另一個組。

這是完整的代碼：

data |> 
    pivot_longer(cols = starts_with("x"), values_to = "x.values") |>
    mutate(xgroup = case_when(str_detect(name, "x1$|(x1_).*")~"x1",
                              str_detect(name, "x2$|(x2_).*")~"x2")) |>
    group_by(date,xgroup) |>
    summarise(xsums = sum(x.values)) |> 
    pivot_wider(values_from = xsums, names_from = xgroup )

Answer 3

使用data.table ：

baseCols <- paste0('x', 1:2)
result <- setDT(data) |> melt(measure.vars = patterns(baseCols), value.name = baseCols)
result[, lapply(.SD, sum), by=.(date), .SDcols=baseCols]
##        date  x1  x2
## 1: 1/1/2018   9  12
## 2: 2/1/2018 399 132
## 3: 3/1/2018 999 932

R根據列名對行值求和

問題描述

3 個解決方案

解決方案1
1 已采納 2022-05-11 02:04:46

解決方案2
0 2022-05-11 02:13:45

更新

解決方案3
0 2022-05-11 02:32:50

R根據列名對行值求和

問題描述

3 個解決方案

解決方案1 1 已采納 2022-05-11 02:04:46

解決方案2 0 2022-05-11 02:13:45

更新

解決方案3 0 2022-05-11 02:32:50

解決方案1
1 已采納 2022-05-11 02:04:46

解決方案2
0 2022-05-11 02:13:45

解決方案3
0 2022-05-11 02:32:50