將 dataframe 中的一列與另一 dataframe 的兩列進行比較

Question

我有兩個數據幀，我需要知道第一個 dataframe 的值是否介於第二個 dataframe 中的兩個值（最小值和最大值）之間。

我之前對其他兩個數據框做了類似的事情，我使用了嵌套loop和between {dplyr} 。 但是，另一個數據集只有三個變量，我可以使用 8 個if語句。 這就是我卡住的地方，dataframe1 有 62 個變量和 477 個觀察值，而 dataframe2 有 124 個變量和 50 個觀察值（最小值和最大值）。 下面我有兩個數據框的示例以及我正在尋找的結果。

所以我正在尋找一個解決方案，我不必寫大約一千個if else語句。 我希望有人可以提供幫助，或者如果這可能的話。

數據看起來如何的示例，我仍然可以更改數據框，但這就是我所處的位置。

Df1
   id type data1 data2 data3
1   1   ab     0     0     0
2   2   cd     0     0     0
3   3   dd     0    10     5
4   4   ed     0     0     0
5   5   kd     0     0    15
6   6   xd     0     5     0
7   7   ab     0     0     0
8   8   cd     0     0     0
9   9   dd     0    10    10
10 10   ed     0     0     0
11 11   kd     0     0    12
12 12   xd     0    12     0
13 13   ab     0     0     0
14 14   cd     0     0     0
15 15   dd     0     5    15
16 16   ed     0     0     0
17 17   kd     0     0    15
18 18   xd     0     7     0
19 19   ab     0     0     0
20 20   cd     0     0     0
21 21   dd     0    18    10
22 22   ed     0     0     0
23 23   kd     0     0     5

我通常將“類型”相互匹配，然后匹配數據是否在下邊界和上邊界之間。

Df2
  type data1 data1max data2 data2max data3 data3max
1   ab    NA       NA    NA       NA    NA       NA
2   dd    NA       NA     5       20    10      100
3   xd    NA       NA     1       30    NA       NA
4   ed    NA       NA    NA       NA    NA       NA
5   cd    NA       NA    NA       NA    NA       NA
6   kd    NA       NA    NA       NA     5       20

並在觀察到的數據與合格數據匹配時產生計數。

Df3
   id type qualifyingfields
1   1   ab                0
2   2   cd                0
3   3   dd                1
4   4   ed                0
5   5   kd                1
6   6   xd                1
7   7   ab                0
8   8   cd                0
9   9   dd                2
10 10   ed                0
11 11   kd                1
12 12   xd                1
13 13   ab                0
14 14   cd                0
15 15   dd                2
16 16   ed                0
17 17   kd                1
18 18   xd                1
19 19   ab                0
20 20   cd                0
21 21   dd                1
22 22   ed                0
23 23   kd                1

Answer 1

library(dplyr)
library(tidyr)

df1 %>% 
  right_join(., df2, by = "type", suffix = c("val", "min")) %>% 
  group_by(type, id) %>% 
  pivot_longer(-c(id, type), names_to = "data", values_to = "value") %>% 
  separate(col = data, into = c("data", "var"), sep = "(?<=\\d)") %>% 
  pivot_wider(names_from = var, values_from = value) %>% 
  group_by(id, type, data) %>% 
  mutate(qualifyingfields = sum(between(val, min, max), na.rm = T)) %>% 
  group_by(id, type) %>% 
  summarise(qualifyingfields = sum(qualifyingfields))

#> # A tibble: 23 x 3
#> # Groups:   type, id [23]
#>       id type  qualifyingfields
#>    <int> <chr>            <int>
#>  1     1 ab                   0
#>  2     2 cd                   0
#>  3     3 dd                   1
#>  4     4 ed                   0
#>  5     5 kd                   1
#>  6     6 xd                   1
#>  7     7 ab                   0
#>  8     8 cd                   0
#>  9     9 dd                   2
#> 10    10 ed                   0
#> # ... with 13 more rows

數據：

df1 <- read.table(text="   id type data1 data2 data3
1   1   ab     0     0     0
2   2   cd     0     0     0
3   3   dd     0    10     5
4   4   ed     0     0     0
5   5   kd     0     0    15
6   6   xd     0     5     0
7   7   ab     0     0     0
8   8   cd     0     0     0
9   9   dd     0    10    10
10 10   ed     0     0     0
11 11   kd     0     0    12
12 12   xd     0    12     0
13 13   ab     0     0     0
14 14   cd     0     0     0
15 15   dd     0     5    15
16 16   ed     0     0     0
17 17   kd     0     0    15
18 18   xd     0     7     0
19 19   ab     0     0     0
20 20   cd     0     0     0
21 21   dd     0    18    10
22 22   ed     0     0     0
23 23   kd     0     0     5", 
header=T, stringsAsFactors=F)

df2 <- read.table(text="  type data1 data1max data2 data2max data3 data3max
1   ab    NA       NA    NA       NA    NA       NA
2   dd    NA       NA     5       20    10      100
3   xd    NA       NA     1       30    NA       NA
4   ed    NA       NA    NA       NA    NA       NA
5   cd    NA       NA    NA       NA    NA       NA
6   kd    NA       NA    NA       NA     5       20", 
header=T, stringsAsFactors=F, na.strings = "NA")

Answer 2

這是一個更通用的解決方案，適用於數據，無論有多少data[n]列

library('dplyr')
library('tidyr')

# Make dataframes tidy
Df1_tidy <- Df1 %>%   
    gather(key='data_name', value='value', -(id:type))

Df2_tidy <- Df2 %>%
    gather(key='data_name', value='value', -type) %>%
    mutate(limit=ifelse(grepl('max', data_name), 'Max', 'Min'),
           data_name=gsub('max', '', data_name)) %>% 
    spread(limit, value) 

# Count qualifying fields
Df3 <- full_join(Df1_tidy, Df2_tidy) %>%
    group_by(id, type) %>%
    summarise(qualifyingfields = sum(value >= Min & value <= Max, na.rm=T)) %>%
    ungroup()

Df3
# # A tibble: 23 x 3
#       id type  qualifyingfields
#    <int> <chr>            <int>
#  1     1 ab                   0
#  2     2 cd                   0
#  3     3 dd                   1
#  4     4 ed                   0
#  5     5 kd                   1
#  6     6 xd                   1
#  7     7 ab                   0
#  8     8 cd                   0
#  9     9 dd                   2
# 10    10 ed                   0
# # ... with 13 more rows

獲取數據（從@M--響應復制）：

df1 <- read.table(text="   id type data1 data2 data3
1   1   ab     0     0     0
2   2   cd     0     0     0
3   3   dd     0    10     5
4   4   ed     0     0     0
5   5   kd     0     0    15
6   6   xd     0     5     0
7   7   ab     0     0     0
8   8   cd     0     0     0
9   9   dd     0    10    10
10 10   ed     0     0     0
11 11   kd     0     0    12
12 12   xd     0    12     0
13 13   ab     0     0     0
14 14   cd     0     0     0
15 15   dd     0     5    15
16 16   ed     0     0     0
17 17   kd     0     0    15
18 18   xd     0     7     0
19 19   ab     0     0     0
20 20   cd     0     0     0
21 21   dd     0    18    10
22 22   ed     0     0     0
23 23   kd     0     0     5", 
header=T, stringsAsFactors=F)

df2 <- read.table(text="  type data1 data1max data2 data2max data3 data3max
1   ab    NA       NA    NA       NA    NA       NA
2   dd    NA       NA     5       20    10      100
3   xd    NA       NA     1       30    NA       NA
4   ed    NA       NA    NA       NA    NA       NA
5   cd    NA       NA    NA       NA    NA       NA
6   kd    NA       NA    NA       NA     5       20", 
header=T, stringsAsFactors=F, na.strings = "NA")

將 dataframe 中的一列與另一 dataframe 的兩列進行比較

問題描述

2 個解決方案

解決方案1
0 2019-11-05 23:11:30

解決方案2
-1 已采納 2019-11-05 23:43:28

將 dataframe 中的一列與另一 dataframe 的兩列進行比較

問題描述

2 個解決方案

解決方案1 0 2019-11-05 23:11:30

解決方案2 -1 已采納 2019-11-05 23:43:28

解決方案1
0 2019-11-05 23:11:30

解決方案2
-1 已采納 2019-11-05 23:43:28