服务器宕机20分钟,BUG定位实录
难不成有人删库跑路? 线上App登录不了了
这天是周日,中午休息到15:25被一个微信消息吵醒了,老板发的消息“线上App登录不了了,快点查一下”。我立马爬起来,看了反馈的录屏视频,App提示的“token失效”,我立刻打给服务器组老大,我也登录阿里云后台同步定位。我先去费用控制台没看到有过期的云产品。想起来7号返京路上阿里云有打电话,但是我给挂了。
看到是一个“释放提醒”,经核实是一个无关的资源。这时服务器组老大打来电话定位出来了,数据库满了。
临时解决方案
比较简单,直接升级数据库容量,重启业务服务器。
上班之后回查工作邮件,阿里云在一个月前就已经发邮件提醒容量不足了,但是并没有引起我的重视。
长期方案
- 重启服务器要保证微服务完全重启
- 充分利用阿里云的
云监控(CloudMonitor)
功能,加入了多个人接收邮件,并把单独设置了运维
邮箱可以绑定到服务器老大的手机上; - 充分利用第三方工具,比如
https://downdetector.com/