cd ../
observabilidade sre confiabilidade

MTTR — Mean Time to Recovery

Tempo médio que um sistema leva para se recuperar de uma falha.

Definição

MTTR (Mean Time to Recovery / Mean Time to Repair) é a média de tempo que um serviço leva para se recuperar de uma falha, desde o momento em que ela ocorre até o retorno ao funcionamento normal.


Como é calculado

MTTR = Tempo total de recuperação / Número de incidentes

Exemplo: Se você teve 3 incidentes no mês com tempos de recuperação de 30min, 20min e 10min:

MTTR = (30 + 20 + 10) / 3 = 20 minutos

Por que reduzir o MTTR?

Um MTTR baixo indica que o time consegue detectar, diagnosticar e corrigir falhas rapidamente. Para isso, você precisa de:


MTTR vs MTTD vs MTTF

SiglaSignificado
MTTDMean Time to Detect — tempo para detectar a falha
MTTRMean Time to Recovery — tempo para recuperar
MTTFMean Time to Failure — tempo médio entre falhas

MTTR = MTTD + tempo de diagnóstico + tempo de correção.


Recursos