如何检查一列的唯一值是否多次出现在 R 中另一列的不同值？

Question

样本数据：

set.seed(4)
cl <- sample(LETTERS[1:2], 100, replace = T)
seller <- round(runif(100, min=1, max=80))

df <- data.frame(cl, seller)

    cl seller
1    B     21
2    A     51
3    A     22
4    A     43
5    A     38
6    B     46
7    A     54
8    B     18
9    A     78
.......

99   A     32
100  B      8

我想检查A和B都出现一个唯一值的seller的次数。 假设，在具有此特定种子的数据框中，您会看到 A 和 B 都出现了 7，因此将计算 7。

我的尝试：

df %>%
  filter(cl=='A')-> d1

df %>%
  filter(cl=='B')-> d2

d3 <- merge(d1, d2, by='seller') %>%
  distinct(seller)

nrow(d3)
17

因此，17 个卖家同时拥有 cl：A 和 B。

到目前为止，我的尝试非常不理想。 它产生了结果，但必须有更好的方法使用dplyr甚至我无法弄清楚的基数R 此外，如果我这样做，对于更大的数据集将非常耗时。

我怎样才能以更好、更整洁的方式解决这个问题？

Answer 1

我们可以使用n_distinct （假设在 'cl' 列中只找到了 'A'、'B' 值）：

library(dplyr)
df %>%
    group_by(seller) %>%
    summarise(n = n_distinct(cl), .groups = 'drop') %>%
    filter(n == 2) %>%
    nrow

输出：

[1] 17

或者也可以做

df %>%
    group_by(seller) %>%
    summarise(n = all(c("A", "B") %in% cl), .groups = 'drop') %>%
    pull(n) %>%
    sum
[1] 17

Answer 2

使用table 、 colSums和sum基本 R 方法

sum(colSums(table(df) > 0) == 2)
#[1] 17

如何检查一列的唯一值是否多次出现在 R 中另一列的不同值？

问题描述

2 个解决方案

解决方案1
3 已采纳 2021-09-10 17:16:35

解决方案2
2 2021-09-11 05:20:59

如何检查一列的唯一值是否多次出现在 R 中另一列的不同值？

问题描述

2 个解决方案

解决方案1 3 已采纳 2021-09-10 17:16:35

解决方案2 2 2021-09-11 05:20:59

解决方案1
3 已采纳 2021-09-10 17:16:35

解决方案2
2 2021-09-11 05:20:59