前段时间, 业务有告警(错误码“-2”), 仔细跟进去, 发现是: 预计在3月15发出的消息, 到了16号才发出去。

          有两个怀疑点:

          1. 当时保存任务的时候, 保存到了16号的任务系统中;

          2. 当时保存任务的时候, 保存到了15号的任务系统中, 到15号码并没有发完, 可能是系统积压等。 (定时的东西, 难免会有这坑那坑的)


          怀疑归怀疑, 还是要实际验证, 从逻辑上看, 1的可能性几乎为0.  所以基本就锁定在第二种可能性上。去看了下进程留下的印记(比如log, 比如log文件最后更新时间等), 终于发现, 原来真的是任务跑到了第二天(16号)。

         为什么以前没有告警, 又突然有告警呢? 联想一下最近的变动, 发现是模块缩容了, 单机任务积压了。 原来如此。

         这个过程, 还发现了很多坑, 很多! 学习了。


         老系统缺陷太多了, 最近彻底改造了一下, 爽爽哒。





本文转载:CSDN博客