两列分组在另一列上的区别

Question

我正在尝试对SQL Server的另一列上分组的两列上的重复值数量进行计数。

以下是我正在研究的示例方案。

    DECLARE @mytable TABLE (CampName varchar(10),ID VARCHAR(10),ListName varchar(10))
    INSERT INTO @mytable
            ( CampName, ID, ListName )
    VALUES  ( 'A',   'X',   'Y' ), ( 'A',   'X',   'Y' ), 
            ( 'A',   'Y',   'Z' ), ( 'A',   'Y',   'Z' ),
            ( 'A',   'Y',   'Z' ), ( 'A',   'P',   'Q' ),
            ( 'B',   'X',   'Y' ), ( 'B',   'X',   'Y' ), 
            ( 'B',   'Y',   'Z' ), ( 'B',   'Y',   'Z' ),
            ( 'B',   'Y',   'Z' ), ( 'B',   'P',   'Q' ),
            ( 'B',   'R',   'S' ), ( 'B',   'R',   'S' )

这将产生下表。

 CampName   ID  ListName
-------------------------------------
      A     X     Y
      A     X     Y -- Duplicate Record
      A     Y     Z
      A     Y     Z -- Duplicate Record
      A     Y     Z -- Duplicate Record
      A     P     Q
      B     X     Y 
      B     X     Y -- Duplicate Record
      B     Y     Z
      B     Y     Z -- Duplicate Record
      B     Y     Z -- Duplicate Record
      B     P     Q
      B     R     S
      B     R     S -- Duplicate Record

我需要如下输出：

CampName   dupcount
-------------------
A            3
B            4

基本上，我需要弄清楚每个CampName的重复数（ID，ListName），无论重复值是多少。

让我知道是否可以在这方面澄清其他问题。 任何帮助将不胜感激。

Answer 1

您可以使用以下查询：

SELECT CampName, SUM(cnt) AS dupcount
FROM (
  SELECT CampName, COUNT(*) - 1 AS cnt
  FROM @mytable
  GROUP BY CampName, ID, ListName
  HAVING COUNT(*) > 1) AS t
GROUP BY CampName

内部查询使用HAVING子句过滤掉非重复的条目。 它还计算每个ID, ListName的重复记录数。 外部查询仅对重复项的数量求和。

Answer 2

这是获得所需结果的一种简单方法：

select t.campname, count(*) - count(distinct t.listname) as num_duplicates
from @mytable t
group by t.campname;

逻辑是count(*)对所有行进行计数。 count(distinct)计算不重复列表的数量。 区别在于重复项的数量。

编辑：

Giorgios提出了一个很好的观点。 但是，数据看起来像id和name包含相同的信息，因此似乎只需要一个。 如果必须同时使用两者，则许多数据库将允许您执行以下操作：

select t.campname, count(*) - count(distinct t.id, t.listname) as num_duplicates
from @mytable t
group by t.campname;

但不是SQL Server。 而是将它们串联在一起：

select t.campname,
       count(*) - count(distinct concat(t.id, ':', t.listname)) as num_duplicates
from @mytable t
group by t.campname;

Answer 3

我认为，需要从每个CampName组的总数中减去ID 和 ListName组合的不同数量，以获得正确的结果。

SELECT t.CampName,
       COUNT(*) - COUNT(DISTINCT 'ColOne' + ID + 'ColTwo' + ListName) AS dupcount
FROM yourTable t
GROUP BY CampName

该查询采用了一种技巧，即将ID和ListName列（它们都是文本）串联起来，以有效地形成伪组。 这样做的需要是DISTINCT仅适用于单个列，但是您需要考虑两个列。

参考： Quora：在SQL中，如何计算多列的DISTINCT？

Answer 4

这个问题有些含糊。

如果您认为所有ID和ListName组合始终相等，则以下查询对您有效：

您只需在COUNT内部使用DISTINCT

SELECT CampName, COUNT(DISTINCT ListName) UniqueCount
FROM @mytable
GROUP BY CampName

如果您怀疑组合可能并非一直都相等，则需要考虑对ID和ListName列的组合进行计数。

假设串联运算符| 这将不会出现在两列中的任何一列中。

SELECT CampName, COUNT(DISTINCT ID+'|'+ListName) UniqueCount
FROM @mytable
GROUP BY CampName

如果您担心要计算重复的行数

SELECT CampName, COUNT(*) - COUNT(DISTINCT ID+'|'+ListName) dupCount
FROM @mytable
GROUP BY CampName

我认为另一种选择

;WITH Temp AS
(
    SELECT CampName, ID, ListName, COUNT(*) UniqueCount 
    FROM @mytable
    GROUP BY CampName, ID, ListName
)
SELECT CampName, COUNT(UniqueCount) count 
FROM Temp
GROUP BY CampName

Answer 5

您还可以使用CONCAT检索相同的结果，它更可靠

SELECT CampName, 
    COUNT(ListName)-COUNT(DISTINCT CONCAT(id,ListName)) tot 
FROM #tmp 
GROUP BY CampName

Answer 6

尝试这样的事情，分析SELECT语句，WITH子句对逻辑并不重要：

WITH input_data AS (
  SELECT 'X' AS x, 'Y' AS y FROM DUAL
  UNION ALL
  SELECT 'X' AS x, 'Y' AS y FROM DUAL
  UNION ALL
  SELECT 'X' AS x, 'A' AS y FROM DUAL
)
SELECT input_data.*, COUNT(*) OVER (PARTITION BY x, y) - 1 AS numer_duplicates
FROM input_data
;

两列分组在另一列上的区别

问题描述

6 个解决方案

解决方案1
9 2016-09-08 14:36:53

解决方案2
5 2016-09-08 14:33:29

解决方案3
5 2016-09-08 14:39:39

解决方案4
4 2016-09-08 14:34:32

解决方案5
3 2016-09-08 15:27:56

解决方案6
2 2016-09-08 14:42:37

两列分组在另一列上的区别

问题描述

6 个解决方案

解决方案1 9 2016-09-08 14:36:53

解决方案2 5 2016-09-08 14:33:29

解决方案3 5 2016-09-08 14:39:39

解决方案4 4 2016-09-08 14:34:32

解决方案5 3 2016-09-08 15:27:56

解决方案6 2 2016-09-08 14:42:37

解决方案1
9 2016-09-08 14:36:53

解决方案2
5 2016-09-08 14:33:29

解决方案3
5 2016-09-08 14:39:39

解决方案4
4 2016-09-08 14:34:32

解决方案5
3 2016-09-08 15:27:56

解决方案6
2 2016-09-08 14:42:37