酒泉市网站建设_网站建设公司_网站建设_seo优化
2026/1/16 6:38:28 网站建设 项目流程

生产事故作战手册(终极整合版)

每个场景统一结构: 事故现象 → 速查命令 → 止血操作 → 根因分类 → 架构级预防


0️⃣ 万能救命总览(任何事故先跑)

uptime top free -m df -h ss -lntup | head

1️⃣ CPU 100%

事故现象

  • 接口超时
  • 负载暴涨
  • CPU 800%+

速查命令

top ps aux --sort=-%cpu | head top -Hp PID

止血操作

kill -9 PID systemctl restart app

根因分类

  • 死循环
  • Full GC
  • 线程池耗尽
  • 正则灾难

架构级预防

  • CPU limit
  • 熔断、限流
  • 线程池监控
  • JVM 指标接入 Prometheus

2️⃣ 内存爆 / OOM

事故现象

  • 服务重启
  • Pod OOMKilled

速查

free -m dmesg | tail ps aux --sort=-%mem | head

K8s:

kubectl describe pod xxx | grep -i oom

止血

kubectl set resources deployment app \ --limits=memory=2Gi --requests=memory=1Gi

根因

  • JVM Xmx > limit
  • 内存泄漏
  • 缓存无限增长

架构级预防

  • 容器资源规范
  • 内存监控
  • 堆转储分析

3️⃣ 磁盘满

事故现象

  • 服务无法写文件
  • MySQL 报 No space

速查

df -h du -sh /* 2>/dev/null | sort -hr | head lsof +L1

止血</

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询