5 erros comuns em escalation policies (e como corrigir)

Vi muito time configurar escalation policy errado e descobrir só em incident às 3h da manhã. Esses 5 erros aparecem em 80% dos setups. Corrija antes de quebrar.

1. Acionar todo mundo no primeiro alerta

"Avisa o time todo via Slack" parece responsável. Não é. É o caminho mais rápido pra "alert fatigue": depois de 3 falsos positivos, ninguém olha mais.

2. Mesmo canal pro primeiro alerta e pro escalation

Erro: step 1 = email pro João. Step 2 (5min depois): email pro João e Maria. Maria recebeu — mas no mesmo canal que João já tinha ignorado.

3. Não configurar on-call rotation

Plantão fixo no João funciona até o João tirar férias. Aí ninguém ack porque "achei que era a Maria essa semana".

4. Não testar a policy

Criou policy, salvou, foi pra casa. Primeiro alerta real revela que a integração Slack quebrou há 2 semanas — ninguém recebeu.

5. Não ter mecanismo de "tudo bem, foi falso alarme"

Alerta dispara, ack, investiga, é falso positivo (cron task gigante deixou DB lento por 2min, voltou). Mas a escalation continua escalando "por garantia".

Começar a usar o UpStat grátis