[英]query that returns rows where time difference past threshold
这是一个奇怪的问题。 我不知道它是否相当可行。
假设我有下表:
person | product | trans | purchase_date
-------+----------+--------+---------------
jim | square | aaaa | 2013-03-04 00:01:00
sarah | circle | aaab | 2013-03-04 00:02:00
john | square | aac1 | 2013-03-04 00:03:00
john | circle | aac2 | 2013-03-04 00:03:10
jim | triangle | aad1 | 2013-03-04 00:04:00
jim | square | abcd | 2013-03-04 00:05:00
sarah | square | efgh | 2013-03-04 00:07:00
jim | circle | ijkl | 2013-03-04 00:22:00
sarah | circle | mnop | 2013-03-04 00:24:00
sarah | square | qrst | 2013-03-04 00:26:00
sarah | circle | uvwx | 2013-03-04 00:44:00
我需要知道任何人在正方形和圆形(或圆形和正方形)之间购买的差异何时超过10分钟。 理想情况下,我也想知道这种差异,但这不是必需的。
所以,这就是我需要的:
person | product | trans | purchase_date
-------+----------+--------+---------------
jim | square | abcd | 2013-03-04 00:05:00
jim | circle | ijkl | 2013-03-04 00:22:00
sarah | square | efgh | 2013-03-04 00:07:00
sarah | circle | mnop | 2013-03-04 00:24:00
sarah | square | qrst | 2013-03-04 00:26:00
sarah | circle | uvwx | 2013-03-04 00:44:00
这将每天运行,所以我将添加一个“where”子句,以确保查询不会失控。 此外,我知道可以显示多个交易(比如购买一个圆圈之间有20分钟,然后是一个方格20分钟,然后是一个圆圈再次20分钟,这意味着有2个时间差的情况超过10分钟)。
任何建议? 我在postgres 8.1.23
使用现代Postgres(8.4或更高版本),您可以使用窗口函数row_number()
来获得每组的连续编号。 然后,您可以将联接保留到上一行和下一行,看看它们中是否符合条件。 瞧。
WITH x AS (
SELECT *
,row_number() OVER (PARTITION BY person ORDER BY purchase_date) AS rn
FROM tbl
WHERE product IN ('circle', 'square')
)
SELECT x.person, x.product, x.trans, x.purchase_date
FROM x
LEFT JOIN x y ON y.person = x.person AND y.rn = x.rn + 1
LEFT JOIN x z ON z.person = x.person AND z.rn = x.rn - 1
WHERE (y.product <> x.product
AND y.purchase_date > x.purchase_date + interval '10 min')
OR (z.product <> x.product
AND z.purchase_date < x.purchase_date - interval '10 min')
ORDER BY x.person, x.purchase_date;
我无法在Postgres 8.1上测试这个,没有可用的实例。 经过测试并适用于v8.4,也应该适合您。 临时序列和临时表以及CREATE TABLE AS
已经可用。
临时序列和表只对您可见,因此即使是并发查询,您也可以获得连续数字。
CREATE TEMP SEQUENCE s;
CREATE TEMP TABLE x AS
SELECT *, nextval('s') AS rn -- get row-numbers from sequence
FROM (
SELECT *
FROM tbl
WHERE product IN ('circle', 'square')
ORDER BY person, purchase_date -- need to order in a subquery first!
) a;
那么上面的SELECT
应该工作:
SELECT x.person, x.product, x.trans, x.purchase_date
FROM x
LEFT JOIN x y ON y.person = x.person AND y.rn = x.rn + 1
LEFT JOIN x z ON z.person = x.person AND z.rn = x.rn - 1
WHERE (y.product <> x.product
AND y.purchase_date > x.purchase_date + interval '10 min')
OR (z.product <> x.product
AND z.purchase_date < x.purchase_date - interval '10 min')
ORDER BY x.person, x.purchase_date;
您可以尝试使用这样的'ON'子句将表连接到自身:
SELECT a.Person, CAST((DATEDIFF(mi, b.purchaseDateb a.purchaseDate)/60.0) AS Decimal) AS TimeDiff, a.Product, b.Product FROM <TABLE> a
JOIN <TABLE> b
ON a.Person = b.Person AND b.purchaseDate > a.purchaseDate
WHERE
(a.Product = 'Circle' AND b.Product = 'Square')
OR
(a.Product = 'Square' AND b.Product = 'Circle')
通过将表连接到自身,您可以获得由同一个人组合两次购买的行。 通过将其限制为'b.purchaseDate> a.purchaseDate',您可以防止自己匹配行。 然后,您只需检查购买的不同产品。
时差是最后一个棘手的部分。 我上面提到的是基于我在这里找到的答案。 它看起来应该可以工作,如果这个输出对你不起作用,你可以使用几种变体。
您需要在WHERE语句中添加一个子句,该子句使用相同的DATEDIFF函数来测试> 10分钟的时间,但这不会带来很大的挑战。
请注意,这不会完全返回您在问题中的内容 - 这将包括Jim的第一笔交易以及Jim第二次购买的交易。 两者都匹配到同一个圆圈,你将获得两次(ijkl-abcd和ijkl-aaaa)。 感谢xQbert的评论指出这一点。
--Assumes
。
SELECT A.person, A.product, a.Trans, A.Purchase_date, B.Purchase_date,
hours_diff * 60 + DATE_PART('minute', B.purchase_date - A.Purchase_date ) as minuteDifference
FROM yourTable A
LEFT JOIN yourTable B
on A.person = B.Person
and ((A.product = 'square' and b.product = 'circle')
OR (A.Product = 'circle' and b.product = 'square'))
and A.purchase_date <= B.Purchase_date
WHERE (A.purchase_Date::date = B.purchase_date::date OR B.purchase_date is null)
当你没有圆形/方形或方形圆形组合时,Null B.purchase_dates会告诉你。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.