5 erros comuns em escalation policies (e como corrigir)
Vi muito time configurar escalation policy errado e descobrir só em incident às 3h da manhã. Esses 5 erros aparecem em 80% dos setups. Corrija antes de quebrar.
1. Acionar todo mundo no primeiro alerta
"Avisa o time todo via Slack" parece responsável. Não é. É o caminho mais rápido pra "alert fatigue": depois de 3 falsos positivos, ninguém olha mais.
2. Mesmo canal pro primeiro alerta e pro escalation
Erro: step 1 = email pro João. Step 2 (5min depois): email pro João e Maria. Maria recebeu — mas no mesmo canal que João já tinha ignorado.
3. Não configurar on-call rotation
Plantão fixo no João funciona até o João tirar férias. Aí ninguém ack porque "achei que era a Maria essa semana".
4. Não testar a policy
Criou policy, salvou, foi pra casa. Primeiro alerta real revela que a integração Slack quebrou há 2 semanas — ninguém recebeu.
5. Não ter mecanismo de "tudo bem, foi falso alarme"
Alerta dispara, ack, investiga, é falso positivo (cron task gigante deixou DB lento por 2min, voltou). Mas a escalation continua escalando "por garantia".