Skip to content

告警体系

微服务架构中的告警设计与 On-Call 机制。

告警分级

  • P0 紧急:核心服务不可用,立即处理
  • P1 严重:部分功能受损,需尽快处理
  • P2 一般:非核心功能异常,工作时间内处理
  • P3 提醒:潜在风险,定期排查

告警规则

  • 阈值告警(错误率 > 5%)
  • 趋势告警(QPS 持续下降)
  • 突变告警(流量突增/突降)
  • 无数据告警

告警渠道

  • 钉钉/企业微信/飞书
  • 短信
  • 电话
  • 邮件

告警治理

  • 告警收敛(避免重复告警)
  • 告警静默(维护窗口)
  • 告警升级
  • On-Call 值班