如何 select 行基于特定列的公共值的条件？

Question

对不起，标题混乱，我不知道如何清楚地表达出来。

这就是我想要使用 PySpark SQL 完成的工作：

当变量“Z”的值介于 2000 和 3000 之间时，返回该特定 ID 的行，但仅返回变量 Y 和 Z 的数据。

我不知道如何 go 比下面的查询更进一步，如何让 SQL 知道我们需要在附加的 df 中选择正确的 ID（2 和 3）？

 SELECT ID, Variable, Date, Value 
 FROM TABLE 
 WHERE (Variable == 'Y' OR Variable == 'Z') AND "if Value of Z between 2000 and 3000 then select only these IDs"

Answer 1

尝试使用简单的内部查询

 SELECT ID, Variable, Date, Value 
 FROM TABLE 
 WHERE (Variable == 'Y' OR Variable == 'Z') AND ID in (select id from TABLE where variable = 'Z' and value between 2000 and 3000)

Answer 2

在 Spark 中，我建议使用 window 函数：

select t.*
from (select t.*,
             sum(case when variable = 'Z' and z_value between 2000 and 3000 then 1 else 0 end) over (partition by id) as z_value_cnt
      from t
     ) t
where variable in ('Y', 'Z') and z_value_cnt >= 1;

我希望这会有更好的执行计划。

Answer 3

df=spark.createDataFrame([(1,'X', '01/01/20',5),
                      (1,'Y', '01/01/20',10),
                      (1,'Z', '01/01/20',1000),
                      (2,'X', '01/02/20',20),
                      (2,'Y', '01/02/20',30),
                      (2,'Z', '01/02/20',2500)],['ID','VAR','DATE','VAL'])
display(df.filter("VAL Between 2000 and 3000").select('ID').join(df,['ID']).filter("VAR in ('X','Y')"))

如何 select 行基于特定列的公共值的条件？

问题描述

3 个解决方案

解决方案1
2 已采纳 2020-08-07 09:15:25

解决方案2
2 2020-08-07 11:21:30

解决方案3
1 2020-08-07 12:21:41

如何 select 行基于特定列的公共值的条件？

问题描述

3 个解决方案

解决方案1 2 已采纳 2020-08-07 09:15:25

解决方案2 2 2020-08-07 11:21:30

解决方案3 1 2020-08-07 12:21:41

解决方案1
2 已采纳 2020-08-07 09:15:25

解决方案2
2 2020-08-07 11:21:30

解决方案3
1 2020-08-07 12:21:41