簡體   English   中英

根據列中的條件將值分配給組

[英]Assign value to group based on condition in column

我有一個數據框架,如下所示:

> df = data.frame(group = c(1,1,1,2,2,2,3,3,3), 
                 date = c(1,2,3,4,5,6,7,8,9),
                 value = c(3,4,3,4,5,6,6,4,9))
> df
  group date value
1     1    1     3
2     1    2     4
3     1    3     3
4     2    4     4
5     2    5     5
6     2    6     6
7     3    7     6
8     3    8     4
9     3    9     9

我想創建一個新列,其中包含與值列中的值“ 4”相關聯的每個組的日期值。

以下數據框顯示了我希望完成的工作。

  group date value newValue
1     1    1     3        2
2     1    2     4        2
3     1    3     3        2
4     2    4     4        4
5     2    5     5        4
6     2    6     6        4
7     3    7     6        8
8     3    8     4        8
9     3    9     9        8

如我們所見,組1的newValue “ 2”,因為那是與值“ 4”關聯的日期。 同樣,第二組具有newValue 4,第三組具有newValue 8。

我認為有一個簡單的方法可以使用ave()或一系列dplyr / data.table函數來執行此操作,但是我的多次嘗試都沒有成功。

這是一個快速的數據data.table

library(data.table)
setDT(df)[, newValue := date[value == 4L], by = group]
df
#    group date value newValue
# 1:     1    1     3        2
# 2:     1    2     4        2
# 3:     1    3     3        2
# 4:     2    4     4        4
# 5:     2    5     5        4
# 6:     2    6     6        4
# 7:     3    7     6        8
# 8:     3    8     4        8
# 9:     3    9     9        8

這是類似的dplyr版本

library(dplyr)
df %>%
  group_by(group) %>%
  mutate(newValue = date[value == 4L])

或在過濾數據后使用merge的可能的base R解決方案(此后需要重命名)

merge(df, df[df$value == 4, c("group", "date")], by = "group")

這是基本的R選項

 df$newValue = rep(df$date[which(df$value == 4)], table(df$group))

使用lapply另一種選擇

do.call(rbind, lapply(split(df, df$group), 
  function(x){x$newValue = rep(x$date[which(x$value == 4)], 
                    each = length(x$group)); x}))

#    group date value newValue
#1.1     1    1     3        2
#1.2     1    2     4        2
#1.3     1    3     3        2
#2.4     2    4     4        4
#2.5     2    5     5        4
#2.6     2    6     6        4
#3.7     3    7     6        8
#3.8     3    8     4        8
#3.9     3    9     9        8

base R路徑:

df$newValue <- ave(`names<-`(df$value==4,df$date), df$group, FUN=function(x) as.numeric(names(x)[x]))
df
   group date value newValue
1      1    1     3        2
2      1    2     4        2
3      1    3     3        2
4      2    4     4        4
5      2    5     5        4
6      2    6     6        4
7      3    7     6        8
8      3    8     4        8
9      3    9     9        8
10     3   11     7        8

我對可變長度組進行了測試。 我將date列分配為value等於4的邏輯索引的名稱。然后按組標識值。

數據

df = data.frame(group = c(1,1,1,2,2,2,3,3,3,3), 
                 date = c(1,2,3,4,5,6,7,8,9,11),
                 value = c(3,4,3,4,5,6,6,4,9,7))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM