线上事故通报 -『9.24』 Linux内核导致服务不可用

Jianpan Gun2018年09月26日 12:40:14文章访问量:

事故说明

事故：Ali Yun ECS Linux 内核导致服务不可用 Owner：滚键盘业务：All 开始时间：2018-09-24 00:02 结束时间：2018-09-25 14:39 影响：总计 39h，GMV 影响为 400 左右 事故定级：一级事故

图片.png | left | 400x200

2018-09-24 00:02 Ali Yun 上 ECS 跑完最后一次脚本任务，CPU 从打满降落至 11%左右，与平常回落至 0%不一致，且出现 ssh 不能连接的现象
2018-09-24 00:13 在尝试解决问题未果的前提下，对实例进行正常重启操作
2018-09-24 00:17 ECS 经过 5min 左右停止，重新启动后 CPU 彪至 90%+，进入远程连接之后，显示 Linux 载入 Error
2018-09-24 00:21 创建工单求助客服
2018-09-24 00:25 反馈 CPU 跑满，建议利用远程连接查看日志
2018-09-24 00:40 反馈日志截图
2018-09-24 00:43 反馈内核问题，建议先制作快照
2018-09-24 01:11 快照制作完毕
2018-09-24 01:19 授权 Ali Yun 操作实例
2018-09-24 01:41 修复失败建议初始化
2018-09-24 11:41 初始化之后 ssh 再次失效
2018-09-24 18:01 回滚快照之后，出现 CPU 跑满，Linux 卡在初始化状态
2018-09-25 14:39 恢复服务
2018-09-26 15:30 恢复数据

wget tar.gz 文件
tar -xzvf 压缩包
./configure or ./bootstrap 进行编译，此时带的参数是安装模块，安装路径等
make 即 build, 可加-j8
make install
cmake 的安装是我见过最费内存，时间最长的，可能会提示虚拟内存不够的情况，dd if=/dev/zero of=/swap bs=32M count=16命令扩容
有些编译可能会报错，可能是有些包未安装导致的

You can use this BibTex to reference this blog if you find it useful and want to quote it.