Glossário de uptime monitoring
Termos técnicos de uptime monitoring, observability e SRE — explicados em português, com referência ao mercado brasileiro.
Uptime
Percentual de tempo em que um sistema está disponível. 99.9% = 8.76h de downtime/ano; 99.99% = 52min/ano; 99.999% = 5min/ano. Quanto mais 9s, exponencialmente mais caro de garantir.
SLA (Service Level Agreement)
Compromisso contratual de disponibilidade. Geralmente vem com créditos automáticos se descumprido. SLA é diferente de SLO (objetivo interno) e SLI (indicador medido).
MTTR (Mean Time To Recovery)
Tempo médio pra recuperar de um incidente. Reduzir MTTR é mais barato que reduzir frequência de incidents (MTBF). É a métrica mais acionável em SRE.
MTBF (Mean Time Between Failures)
Tempo médio entre falhas. Reduzir MTBF exige refactor/testes/redundância. Em produto novo, geralmente o ROI maior está em reduzir MTTR primeiro.
Heartbeat
Endpoint passivo que recebe pings de cron jobs ou workers. Se o ping não chega no intervalo esperado, dispara alerta. Ideal pra monitorar jobs que rodam em horários estranhos (3h da manhã).
Synthetic monitoring
Robô que executa fluxos no navegador (login, checkout, etc) periodicamente. Detecta bugs de regressão UI antes do usuário. UpStat usa Playwright pra synthetics.
RUM (Real User Monitoring)
Coleta métricas de performance do usuário real no navegador (LCP, CLS, INP). Diferente do synthetic, mostra a experiência real, não simulada.
Escalation policy
Regra de quem é acionado e quando, se ninguém der acknowledge. Multi-step com targets (pessoa/time/rotation) e canais (WhatsApp/SMS/Slack) por step.
On-call rotation
Escala de plantão rotativa entre membros, com overrides pontuais. UpStat calcula automaticamente quem está de plantão em cada momento.
Postmortem
Documento pós-incidente: timeline, causa raiz, impacto, ações de prevenção. Blameless: foca em sistema, não em pessoa. UpStat gera draft automático com IA.
Runbook
Guia operacional pra um tipo específico de incident: o que checar, mitigações rápidas, quando escalar. Linkado direto no alerta pra reduzir MTTR.