繁体   English   中英

如何在不击中子表/子查询两次的情况下基于计数过滤数据?

[英]How to filter data based on count without hitting the sub-table/sub-query twice?

我有以下数据,我想通过对cd列应用计数来过滤掉该数据(即获取所有列,以使count(cd)> 3)

数据样本(由子查询派生)

cd  c1  c2  d1
----------------
aa  23  681 4850
aa  23  942 4850
aa  28  944 4881
aa  28  221 4850
bb  46  443 9082
cc  77  171 2831
cc  77  272 2831
dd  18  798 5993
xx  71  166 8755
xx  71  482 3818
xx  71  565 7598
xx  71  603 7246
xx  71  649 4293
xx  71  681 7321
xx  71  250 7453
xx  22  276 3818
xx  22  107 8755
yy  28  143 5802
zz  33  624 3205
zz  33  767 1532
zz  33  372 3205
zz  33  679 3838

我正在使用以下查询,但由于配置单元表中的数据量很大,所以我不想打test_data。 (注意:此处test_data是从同一查询中的其他子查询派生的)

SELECT cd, c1, c2, d1 
FROM test_data
WHERE cd IN (SELECT cd FROM test_data group by cd having count(cd) > 3)

您可以使用window函数获取每个cd组的计数,但实际上不进行汇总,然后过滤出计数低于4的行。尽管这仍然需要子查询,但您没有加入任何表,因此应该多一些高性能。

SELECT 
cd, 
c1, 
c2, 
d1 
FROM (
  SELECT
  cd, 
  c1, 
  c2, 
  d1,
  count(1) OVER (PARTITION BY cd ORDER BY c1 DESC) as cd_count 
  FROM test_data
) test_data_1
WHERE cd_count > 3;

使用窗口函数获取cd的计数,然后使用where子句过滤数据,如下面的查询所示

选择* from(选择cd,c1,c2,d1,count(cd)OVER(PARTITION BY cd)作为cnt from test_data)a其中cnt> 3

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM