將函數應用於data.table的每一行

Question

我正在尋找一種方法來有效地將函數應用於data.table的每一行。 讓我們考慮以下數據表：

library(data.table)
library(stringr)

x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

假設我想按空格分割列b的每個元素（從而為原始數據中的每一行產生兩行）並連接結果數據表。 對於上面的示例，我需要以下結果：

如果列a只有唯一值，則以下內容將起作用：

x[, list(str_split(b, ' ')[[1]]), by = a]

以下幾乎可以工作（除非原始數據表中有一些相同的行），但是當x有很多列並將列b復制到結果時很難看，我想避免這種情況。

>     x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
   a     b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19

解決這個問題最有效和慣用的方法是什么？

Answer 1

怎么樣：

x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))]
   a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19

給出評論的廣義解決方案：

x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]

Answer 2

x[, .(a,strsplit(b,' ')), by = .I]

看起來更加estetic

Answer 3

一種選擇是添加行號

x[, r := 1:nrow(x)]

然后按r分組：

x[, list(a, str_split(b, ' ')[[1]]), by = r]

我想知道是否有更好的解決方案？

Answer 4

最有效和慣用的方法是具有矢量化功能。

在這種情況下，某種regex會做你想要的

 x[, V1 := gsub(" [[:alnum:]]*", "", b)]

   a     b V1
1: 1 12 13 12
2: 2 14 15 14
3: 3 16 17 16
4: 1 18 19 18

如果要返回每個拆分組件，並且您知道每個拆分組件中有兩個，則可以使用Map將strsplit的結果strsplit轉換為正確的形式

x[, c('b1','b2')  := do.call(Map, c(f = c, strsplit(b, ' ')))]



x
   a     b b1 b2
1: 1 12 13 12 13
2: 2 14 15 14 15
3: 3 16 17 16 17
4: 1 18 19 18 19

Answer 5

x[, .(a,strsplit(b,' ')), by=1:nrow(x)]

by=nrow(x)是一種by=nrow(x)強制每行1行的簡單方法

Answer 6

dplyr / tidyr方法也適用於數據表。

library(dplyr)
library(tidyr)
x %>% 
  separate(b, into = c("b1", "b2")) %>% 
  gather(b, "V1", b1:b2) %>%
  arrange(V1) %>%
  select(a, V1)

或者，使用標准評估表：

x %>% 
  separate_("b", into = c("b1", "b2")) %>% 
  gather_("b", "V1", c("b1", "b2")) %>%
  arrange_(~ V1) %>%
  select_(~ a, ~ V1)

b列中不同數量的值的情況僅稍微復雜一些。

library(stringr)

x2 <- data.table(
  a = c(1:3, 1), 
  b = c('12 13', '14', '15 16 17', '18 19')
)

n <- max(str_count(x2$b, " ")) + 1
b_cols <- paste0("b", seq_len(n))
x2 %>% 
  separate_("b", into = b_cols, extra = "drop") %>% 
  gather_("b", "V1", b_cols) %>%
  arrange_(~ V1) %>%
  select_(~ a, ~ V1)

Answer 7

看看輸入和所需的輸出，這應該工作 -

x <- data.frame(a=c(1,2,3,1),b=c("12 13","14 15","16 17","18 19"))
data.frame(a=rep(x$a,each=2), new_b=unlist(strsplit(as.character(x$b)," ")))

將函數應用於data.table的每一行

問題描述

7 個解決方案

解決方案1
14 已采納 2013-03-28 13:51:01

解決方案2
3 2016-10-30 03:29:47

解決方案3
2 2013-03-28 03:28:45

解決方案4
2 2013-03-28 03:28:57

解決方案5
2 2016-09-11 19:59:12

解決方案6
1 2015-05-06 10:13:13

解決方案7
0 2013-03-28 04:07:24

將函數應用於data.table的每一行

問題描述

7 個解決方案

解決方案1 14 已采納 2013-03-28 13:51:01

解決方案2 3 2016-10-30 03:29:47

解決方案3 2 2013-03-28 03:28:45

解決方案4 2 2013-03-28 03:28:57

解決方案5 2 2016-09-11 19:59:12

解決方案6 1 2015-05-06 10:13:13

解決方案7 0 2013-03-28 04:07:24

解決方案1
14 已采納 2013-03-28 13:51:01

解決方案2
3 2016-10-30 03:29:47

解決方案3
2 2013-03-28 03:28:45

解決方案4
2 2013-03-28 03:28:57

解決方案5
2 2016-09-11 19:59:12

解決方案6
1 2015-05-06 10:13:13

解決方案7
0 2013-03-28 04:07:24