[英]T-SQL Query Optimization
我正在为我们为客户提供的内部网络分析系统进行一些升级(没有首选供应商或Google Analytics(分析)),并且正在处理以下查询:
select
path as EntryPage,
count(Path) as [Count]
from
(
/* Sub-query 1 */
select
pv2.path
from
pageviews pv2
inner join
(
/* Sub-query 2 */
select
pv1.sessionid,
min(pv1.created) as created
from
pageviews pv1
inner join Sessions s1 on pv1.SessionID = s1.SessionID
inner join Visitors v1 on s1.VisitorID = v1.VisitorID
where
pv1.Domain = isnull(@Domain, pv1.Domain) and
v1.Campaign = @Campaign
group by
pv1.sessionid
) t1 on pv2.sessionid = t1.sessionid and pv2.created = t1.created
) t2
group by
Path;
我已经在PageViews表中用200万行测试了该查询,运行大约需要20秒钟。 我注意到在执行计划中两次执行聚集索引扫描,两次都击中PageViews表。 该表的“创建”列上有一个聚集索引。
问题在于,在这两种情况下,它似乎都会遍历所有200万行,我认为这是性能瓶颈。 有什么我可以做的来防止这种情况发生,或者就优化而言我是否已经尽力了?
作为参考,该查询的目的是找到每个会话的第一页视图。
编辑:经过无奈,尽管在这里获得了帮助,但我无法使此查询正常工作。 因此,我决定在会话表中简单地存储对入口页面(和现在出口页面)的引用,这使我可以执行以下操作:
select
pv.Path,
count(*)
from
PageViews pv
inner join Sessions s on pv.SessionID = s.SessionID
and pv.PageViewID = s.ExitPage
inner join Visitors v on s.VisitorID = v.VisitorID
where
(
@Domain is null or
pv.Domain = @Domain
) and
v.Campaign = @Campaign
group by pv.Path;
该查询将在3秒或更短的时间内运行。 现在,我不得不在记录页面浏览量时实时更新进入/退出页面(最佳解决方案),或者以一定间隔运行批处理更新。 无论哪种方式,它都能解决问题,但不像我想要的那样。
编辑编辑:添加丢失的索引(从昨晚清除后)将查询减少到毫秒。 呜呜!
对于初学者,
where pv1.Domain = isnull(@Domain, pv1.Domain)
不会SARG。 我记得您无法优化函数的匹配。
从doofledorf继续。
尝试这个:
where
(@Domain is null or pv1.Domain = @Domain) and
v1.Campaign = @Campaign
好吧,我有几点建议
创建此涵盖的索引:
create index idx2 on [PageViews]([SessionID], Domain, Created, Path)
如果可以修改Sessions表,使其存储条目页面,例如。 EntryPageViewID您将能够对此进行优化。
您的内部查询(pv1)将要求(域)上具有非聚集索引。
由于Created上的聚集索引,第二个查询(pv2)已经可以找到所需的行,但是pv1可能返回的行太多,以至于SQL Server决定表扫描比需要进行的所有锁定都要快。 由于SessionID上的pv1组(因此必须按SessionID进行排序),因此SessionID的非聚集索引(已创建并包含路径)应允许发生MERGE连接。 如果不是,则可以通过“ SELECT .. FROM pageviews pv2 INNER MERGE JOIN ...”强制进行合并联接。
上面列出的两个索引将是:
在PageViews(域)上创建非索引索引ncixcampaigndomain
在PageViews上创建NONCLUSTERED INDEX ncixsessionid创建(SessionID,已创建)INCLUDE(路径)
我回来了。 要回答您的第一个问题,您可能只需在这两个条件上进行合并,因为它们显然是不相交的。
实际上,您试图同时涵盖提供域名和不提供域名的情况。 您需要两个查询。 它们可能完全不同地进行优化。
这些表中数据的本质是什么? 您是否发现大多数数据是定期插入/删除的?
这是表的完整架构吗? 查询计划显示不同的索引。编辑:对不起,请阅读文本的最后一行。 我建议如果定期清除/插入表,则可以考虑放弃聚集索引并将表用作堆表。
一定要像约翰建议的那样在Campaign,Domain上放置非聚集索引
SELECT
sessionid,
MIN(created) AS created
FROM
pageviews pv
JOIN
visitors v ON pv.visitorid = v.visitorid
WHERE
v.campaign = @Campaign
GROUP BY
sessionid
这样就为您提供了广告系列的会话。 现在,让我们看看您在做什么。
好的,这摆脱了您的分组:
SELECT
campaignid,
sessionid,
pv.path
FROM
pageviews pv
JOIN
visitors v ON pv.visitorid = v.visitorid
WHERE
v.campaign = @Campaign
AND NOT EXISTS (
SELECT 1 FROM pageviews
WHERE sessionid = pv.sessionid
AND created < pv.created
)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.