Saltar a contenido

1. SLOs Cuantitativos como Puertas

Las decisiones que comprometen recursos o estabilidad solo se autorizan si las métricas lo justifican. Los SLOs (objetivos de nivel de servicio) funcionan como puertas automáticas con desbloqueo humano documentado.


Puertas automáticas

Puerta Condición Bloquea Permite
Encender Horus (servidor secundario con GPU para IA) > 10 consultas IA/día × 7 días Horus no se enciende por ocio Trabajo real justificado
Ampliar RAM RAM media > 85% × 30 días No se compra Compra justificada
Bloquear deploys Backups fallidos > 2 en 7 días Sin deploys Tier A-2 Solo emergencia
Activar nuevo Tier SLO (objetivo de nivel de servicio) > 99% × 30 días en tier anterior Sin nuevos servicios Sistema estable
Feature update Último restore exitoso Update bloqueado Update con rollback

Firma humana

El administrador puede desbloquear cualquier puerta con: 1. Justificación escrita del motivo 2. Commit en Forgejo documentando la decisión

Si algo sale mal, se sabe quién decidió y por qué.


Tabla de SLOs

Servicio SLO (objetivo de nivel de servicio) Error budget/año RTO (tiempo objetivo de recuperación) RPO (punto objetivo de recuperación)
NetBird 99.9% 8.7h 5 min N/A
Pi-hole 99.9% 8.7h 5 min N/A
Caddy 99.9% 8.7h 5 min N/A
Authentik 99.9% 8.7h 5 min N/A
Prometheus+Grafana 99.5% 43.8h 15 min 2h
Nextcloud 99.0% 87.6h 2h 24h
Immich 98.0% 175.2h 4h 24h
Vaultwarden 99.0% 87.6h 4h 1h
Forgejo 99.5% 43.8h 4h 24h
n8n 99.0% 87.6h 4h 24h
farmOS 99.0% 87.6h 8h 24h

Medición y reporte

  • Prometheus recording rules: avg_over_time(probe_success[30d])
  • Grafana: dashboard "SLOs" con evolución y error budget
  • n8n: informe mensual automático día 1 por ntfy

Relaciones


Secciones relacionadas