在dplyr中使用列表列函數進行變異

Question

我試圖計算源向量和tibble中的比較向量之間的Jaccard相似性。

首先，使用names_字段（字符串向量）創建一個tibble。 使用dplyr的mutate，創建names_vec，列表列，其中每行現在是一個向量（向量的每個元素都是一個字母）。

然后，使用列jaccard_sim創建一個新的tibble，它應該計算Jaccard相似度。

source_vec <- c('a', 'b', 'c')

df_comp <- tibble(names_ = c("b d f", "u k g", "m o c"),
              names_vec = strsplit(names_, ' '))

df_comp_jaccard <- df_comp %>%
   dplyr::mutate(jaccard_sim = length(intersect(names_vec, source_vec))/length(union(names_vec, source_vec)))

jaccard_sim中的所有值都為零。 但是，如果我們運行這樣的東西，我們得到第一個條目的正確的Jaccard相似度為0.2：

a <- length(intersect(source_vec, df_comp[[1,2]]))
b <- length(union(source_vec, df_comp[[1,2]]))
a/b

Answer 1

你可以簡單地添加rowwise

df_comp_jaccard <- df_comp %>%
  rowwise() %>%
  dplyr::mutate(jaccard_sim = length(intersect(names_vec, source_vec))/
                              length(union(names_vec, source_vec)))

# A tibble: 3 x 3
  names_ names_vec jaccard_sim
   <chr>    <list>       <dbl>
1  b d f <chr [3]>         0.2
2  u k g <chr [3]>         0.0
3  m o c <chr [3]>         0.2

使用rowwise可以獲得使用mutate時所期望的直觀行為：“對每一行執行此操作”。

不使用rowwise意味着你利用矢量化函數，這更快，這就是為什么它是默認值，但如果你不小心可能會產生意想不到的結果。

mutate （或其他dplyr函數）按行工作的印象是一種錯覺，因為你正在使用向量化函數，事實上你總是在玩完整列。

我將用幾個例子來說明：

有時結果是相同的，使用矢量化功能，如paste ：

tibble(a=1:10,b=10:1) %>% mutate(X = paste(a,b,sep="_"))
tibble(a=1:10,b=10:1) %>% rowwise %>% mutate(X = paste(a,b,sep="_"))
# # A tibble: 5 x 3
#       a     b     X
#   <int> <int> <chr>
# 1     1     5   1_5
# 2     2     4   2_4
# 3     3     3   3_3
# 4     4     2   4_2
# 5     5     1   5_1

有時候它是不同的，有一個沒有矢量化的函數，比如max ：

tibble(a=1:5,b=5:1) %>% mutate(max(a,b))
# # A tibble: 5 x 3
#       a     b `max(a, b)`
#   <int> <int>       <int>
# 1     1     5           5
# 2     2     4           5
# 3     3     3           5
# 4     4     2           5
# 5     5     1           5

tibble(a=1:5,b=5:1) %>% rowwise %>% mutate(max(a,b))
# # A tibble: 5 x 3
#       a     b `max(a, b)`
#   <int> <int>       <int>
# 1     1     5           5
# 2     2     4           4
# 3     3     3           3
# 4     4     2           4
# 5     5     1           5

請注意，在這種情況下，您不應該在現實生活中使用rowwise ，而是為此目的進行矢量化的pmax ：

tibble(a=1:5,b=5:1) %>% mutate(pmax(a,b))
# # A tibble: 5 x 3
#       a     b `pmax(a, b)`
#   <int> <int>        <int>
# 1     1     5            5
# 2     2     4            4
# 3     3     3            3
# 4     4     2            4
# 5     5     1            5

Intersect就是這樣的函數，你給這個函數提供了一個包含向量和另一個向量的列表列，這兩個對象沒有交集。

Answer 2

我們可以使用map循環遍歷list

library(tidyverse)
df_comp %>% 
     mutate(jaccard_sim = map_dbl(names_vec, ~length(intersect(.x, 
                 source_vec))/length(union(.x, source_vec))))
# A tibble: 3 x 3
#   names_ names_vec jaccard_sim
#    <chr>    <list>       <dbl>
#1  b d f <chr [3]>         0.2
#2  u k g <chr [3]>         0.0
#3  m o c <chr [3]>         0.2

map功能已經過優化。 以下是稍大的數據集的system.time

df_comp1 <- df_comp[rep(1:nrow(df_comp), 1e5),]
system.time({

 df_comp1 %>%
      rowwise() %>%
      dplyr::mutate(jaccard_sim = length(intersect(names_vec, source_vec))/length(union(names_vec, source_vec)))
    })
 #user  system elapsed 
 # 25.59    0.05   25.96 

system.time({
  df_comp1 %>% 
     mutate(jaccard_sim = map_dbl(names_vec, ~length(intersect(.x, 
                 source_vec))/length(union(.x, source_vec))))
   })
#user  system elapsed 
#  13.22    0.00   13.22

在dplyr中使用列表列函數進行變異

問題描述

2 個解決方案

解決方案1
9 已采納 2017-10-23 09:57:12

解決方案2
8 2017-10-23 09:57:57

在dplyr中使用列表列函數進行變異

問題描述

2 個解決方案

解決方案1 9 已采納 2017-10-23 09:57:12

解決方案2 8 2017-10-23 09:57:57

解決方案1
9 已采納 2017-10-23 09:57:12

解決方案2
8 2017-10-23 09:57:57