簡體   English   中英

基於向量中的值的數據幀中的 Select 行

[英]Select rows from a data frame based on values in a vector

我有類似這樣的數據:

dt <- structure(list(fct = structure(c(1L, 2L, 3L, 4L, 3L, 4L, 1L, 2L, 3L, 1L, 2L, 3L, 2L, 3L, 4L), .Label = c("a", "b", "c", "d"), class = "factor"), X = c(2L, 4L, 3L, 2L, 5L, 4L, 7L, 2L, 9L, 1L, 4L, 2L, 5L, 4L, 2L)), .Names = c("fct", "X"), class = "data.frame", row.names = c(NA, -15L))

我想根據fct變量中的值從此數據幀中獲取 select 行。 例如,如果我希望 select 行包含“a”或“c”,我可以這樣做:

dt[dt$fct == 'a' | dt$fct == 'c', ]

產生

1    a 2
3    c 3
5    c 5
7    a 7
9    c 9
10   a 1
12   c 2
14   c 4

正如預期的那樣。 但是我的實際數據更復雜,我實際上想根據向量中的值來 select 行,例如

vc <- c('a', 'c')

所以我嘗試了

dt[dt$fct == vc, ]

但這當然行不通。 我知道我可以編寫一些代碼來循環遍歷向量並拉出所需的行並將 append 提取到新的 dataframe,但我希望有一種更優雅的方式。

那么如何根據向量vc的內容過濾/子集我的數據?

看看?"%in%"

dt[dt$fct %in% vc,]
   fct X
1    a 2
3    c 3
5    c 5
7    a 7
9    c 9
10   a 1
12   c 2
14   c 4

你也可以使用?is.element

dt[is.element(dt$fct, vc),]

與上面類似,使用來自dplyr filter

filter(df, fct %in% vc)

另一種選擇是使用鍵控data.table

library(data.table)
setDT(dt, key = 'fct')[J(vc)]  # or: setDT(dt, key = 'fct')[.(vc)]

這導致:

   fct X
1:   a 2
2:   a 7
3:   a 1
4:   c 3
5:   c 5
6:   c 9
7:   c 2
8:   c 4

這是做什么的:

  • setDT(dt, key = 'fct')變換data.framedata.table (這是一個的增強形式data.frame與) fct柱組作為關鍵字。
  • 接下來,您可以使用[J(vc)]vc向量進行子集化。

注意:當鍵是因子/字符變量時,您也可以使用setDT(dt, key = 'fct')[vc]但當vc是數字向量時,這將不起作用。 vc是一個數字向量並且沒有包含在J().()vc將用作 rowindex。

和子集概念的更詳細解釋可以在小插圖鍵和基於快速二分搜索的子集中找到

@Frank 在評論中建議的替代方案:

setDT(dt)[J(vc), on=.(fct)]

vc包含dt中不存在的值時,您需要添加nomatch = 0

setDT(dt, key = 'fct')[J(vc), nomatch = 0]

或者:

setDT(dt)[J(vc), on=.(fct), nomatch = 0]

你可以試試:

sel = c('a', 'c')
df[sel,]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM