从版本 1.1 >
shi chuck编辑
在2019/08/29 10:41上
到版本
shi chuck编辑
在2019/09/15 10:02上
>
修改评论 该版本没有评论

Summary

Details

Page properties
Content
... ... @@ -1,0 +1,56 @@
1 += 2019-9-15 凌晨 igo故障记录 =
2 +
3 +**原因:**
4 +
5 +igo服务器磁盘满。
6 +
7 +**解决:**
8 +
9 +清除空间后恢复。
10 +
11 +**过程:**
12 +
13 +Q1:阿里云是否发送了告警?
14 +
15 +A:有,近2日短信告警如下
16 +
17 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例boss/47.106.169.159 /dev/vda1 Host.diskusage.used最大值超过88GBytes,请登录云监控关注(南方众悦)
18 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例boss/47.106.169.159,Host.diskusage.used恢复正常,请登录云监控关注
19 +【阿里云】尊敬的jxx~*~**,华南1(深圳)的云服务器ECS实例jx_boss_1/120.77.84.134 / 磁盘使用率最大值超过93,请登录云监控关注(坚信)
20 +【阿里云】尊敬的jxx~*~**,华南1(深圳)的云服务器ECS实例jx_boss_1/120.77.84.134,磁盘使用率恢复正常,请登录云监控关注
21 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例igo-bo-20181210/120.76.59.16 /dev/vda1 Host.diskusage.used最大值超过276GBytes,请登录云监控关注(igo)
22 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例boss/47.106.169.159 /dev/vda1 Host.diskusage.used最大值超过88GBytes,请登录云监控关注(南方众悦)
23 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例boss/47.106.169.159,Host.diskusage.used恢复正常,请登录云监控关注
24 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例boss/47.106.169.159 /dev/vda1 Host.diskusage.used最大值超过88GBytes,请登录云监控关注(南方众悦)
25 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例boss/47.106.169.159,Host.diskusage.used恢复正常,请登录云监控关注
26 +【阿里云】尊敬的linghuc~*~**,华南1(深圳)的云服务器ECS实例igo-bo-20181210/120.76.59.16,Host.diskusage.used恢复正常,请登录云监控关注
27 +
28 +~-~-
29 +
30 +Q2:有告警为何未处理?
31 +
32 +A:工作疏忽。igo的和南方众悦的短信时间相近,处理了南方,未留意igo。
33 +
34 +~-~-
35 +
36 +Q3:系统是否配置了脚本清除空间,还出现如此多的告警?
37 +
38 +A:以配置脚本,脚本清除原则会按照运营过程实际调整,希望尽可能的利用磁盘空间保存足够的日志和数据库备份。
39 +
40 +主要近3日告警集中出现。其中不同客户的磁盘空间变化和清除分以下:
41 +
42 +坚信BO2.0:运营中发现日志规模相比bo1.0大,需调整日志清除策略。
43 +
44 +南方众悦BO: 目前最多空间90G,文件清除策略在根据日常告警实时调整 。
45 +
46 +igo BO:单日数据库备份文件4G+。
47 +
48 +
49 +**改进:**
50 +
51 +~~阿里云告警策略加强:如首次告警未解决,每3小时重复告警,避免人为疏忽。
52 +
53 +~~bo2.0升级额外注意项:升级bo2前需紧密跟踪服务器磁盘空间。
54 +
55 +
56 +