Runbook: Servicio caído¶
🚧 En construcción — este procedimiento se documentará cuando la infraestructura esté desplegada y el escenario pueda probarse.
| Gravedad | 🟡 Media a 🔴 Crítica (según el Tier del servicio) |
| Tiempo de respuesta | < 5 min (Tier A), < 30 min (Tier B), < 4h (Tier C) |
| Roles implicados | Argos (detección), Terminus (remediación), Hefesto (si requiere reconstrucción) |
Síntomas¶
- Un servicio concreto no carga en el navegador
- Uptime Kuma muestra el servicio en rojo
- Los usuarios reportan que una aplicación específica no funciona
- El resto de servicios funcionan con normalidad
Diagnóstico¶
- [ ] Confirmar que el problema es de un solo servicio (los demás funcionan)
- [ ] Intentar acceder desde dentro de la red (descartar problema de VPN (red privada virtual))
- [ ] Verificar el LXC (contenedor ligero de Proxmox):
pct status <ID>en Proxmox - [ ] Verificar el contenedor Docker:
docker ps | grep <servicio>dentro del LXC (contenedor ligero de Proxmox) - [ ] Revisar logs:
docker logs <servicio> --tail 50 - [ ] Comprobar si el puerto responde:
curl http://<IP>:<puerto> - [ ] Verificar que Pi-hole resuelve el nombre:
nslookup <servicio>.sc - [ ] Verificar que Caddy enruta correctamente
Resolución¶
- [ ] Si el LXC está parado:
pct start <ID> - [ ] Si Docker está caído dentro del LXC:
docker compose up -d - [ ] Si el contenedor no arranca: revisar logs, restaurar última snapshot ZFS (sistema de archivos con integridad de datos)
- [ ] Si es un problema de red: verificar reglas de firewall y conectividad
- [ ] Como último recurso: restaurar desde PBS (sistema de copias de seguridad de Proxmox)
Verificación¶
- El servicio responde en
https://<servicio>.sc - Uptime Kuma vuelve a verde
- Los usuarios confirman que funciona
Prevención¶
- Healthcheck configurado en el LXC (watchdog systemd o Docker)
- Alerta en Uptime Kuma para todos los servicios
- Snapshot ZFS (sistema de archivos con integridad de datos) antes de cada actualización
- Plan de degradación documentado (qué apagar si faltan recursos)