场景
最近工作中,发现某同步job在执行中经常抛出sql执行超时的问题,查看日志发现每次sql执行的时间都是线性增长的,循环执行50次以后执行时间甚至超过了5分钟
job执行流程分析
首先,对于job流程进行分析,查看是否是job设计上的问题
通过对流程的分析,发现每次获取的需要同步的数据最多只有一万条,不存在大数据写入导致超时的问题。
那么在对获取详细信息这个过程进行分析,发现关联的表中最多的数据已经上亿了,可能是这里导致了整体sql执行变慢的原因。这里能算可疑点一。
再接着往下一个流程看与表b对比重复数据时,随着循环执行表b的数据会越来越多,那么会不会这里是导致循环执行下执行时间称线性增长的主要原因呢。
逐一排除问题
之前我们通过分析job执行流程,发现了两个可疑点,那么现在具体分析sql的问题
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 | create table #tabletemp ( 字段a int null , 字段b int null , 字段c int null ) insert into #tabletemp( 字段a, 字段b ) select a.字段a, 字段b from servera.dbo.tableb a with (nolock) left join dbo.tablea b with (nolock) a.id = b.id update a set a.字段c = b.字段d from #tabletemp a left join dbo.tablec b with (nolock) on a.字段a =b.id insert into dbo.目标tablea( 字段a, 字段b ) select 字段a, 字段b from #tabletemp with (nolock) insert into dbo.目标tableb( 字段a, 字段b, 字段c ) select distinct a.字段a, a.字段b, a.字段c from #tabletemp a with (nolock) left join dbo.目标tableb b on a.字段a = b.字段a and a.字段b = b.字段b where a.pk is null |
先来查看可疑点一,是不是这里出了问题。因为表tablec数据已经是几亿的量,但单独将该sql执行发现,因为索引的存在发现执行并不是特别慢,所以可以排除掉该问题
那么来看看可疑点二呢
1 2 3 4 5 6 7 8 9 10 11 12 | insert into dbo.目标tableb( 字段a, 字段b, 字段c ) select distinct a.字段a, a.字段b, a.字段c from #tabletemp a with (nolock) left join dbo.目标tableb b on a.字段a = b.字段a and a.字段b = b.字段b where a.pk is null |
可以看到该sql插入的同时还查询了自身是否存在条件下相同的数据,查看表目标tableb发现,该表没有主键也没有索引,再通过dba那边提供的sql分析发现,这句sql对于dbo.目标tableb进行了全表扫描,再加上插入的1w条数据,相当于对于dbo.目标tableb全表扫描了1w次,随着循环的执行该表数据越来越多,执行时间也就越来越长,看来这里就是导致执行时间线性增长的主要原因了。
解决问题
根据上面问题的排除,我们已经得知问题的关键所在就是进行了1w次的全表扫描,导致了sql执行时间过长,那么解决问题的关键所在就是避免这么多次的全表扫描。那么最直接的解决方法,就是建立索引避免全表扫描
1.通过使用临时表代替表变量
先来看看,表变量与临时表的区别,可以看到表变量是无法使用索引的,所以我们使用索引避免全表扫描的话必须要代替掉表变量,然后在临时表的字段a上我们创建索引
2.修改目标tableb的写入逻辑
现有写入逻辑会先判断是否在目标tableb中是否存在,不存在时则写入表中,保持业务的情况下,我们稍微修改下逻辑,再写入之前先排除掉与目标tableb中的数据,将剩余数据写入表中,就能避免循环1w次的目标tableb表查询了
通过这两处修改后,再执行该job发现问题得到了完美的解决。