Runbook: Backup fallido¶
🚧 En construcción — este procedimiento se documentará cuando la infraestructura esté desplegada y el escenario pueda probarse.
| Gravedad | 🟡 Media — no hay riesgo inmediato, pero la ventana de vulnerabilidad crece |
| Tiempo de respuesta | < 4 horas (si falla 2 noches seguidas, pasar a 🔴) |
| Roles implicados | Mnemósine (backups), Argos (detección), Terminus (si hay que restaurar) |
Un backup que falla una noche es un aviso. Un backup que falla dos noches seguidas es una emergencia: cada hora sin copia aumenta lo que se puede perder.
Síntomas¶
- Alerta en ntfy topic
backup: "❌ PBS (sistema de copias de seguridad de Proxmox) job fallido" - Alerta en ntfy topic
backup: "❌ restic offsite fallido" - PBS (sistema de copias de seguridad de Proxmox) UI muestra el último job en rojo
- Dashboard de Grafana: última verificación de backup > 24h
Diagnóstico¶
- [ ] Verificar PBS UI:
https://pbs.sc→ Jobs → último job fallido - [ ] Comprobar espacio en disco:
zpool list backuppool - [ ] Verificar conectividad con Thoth (restic offsite)
- [ ] Revisar logs del job fallido en PBS
- [ ] Comprobar que los LXCs (contenedores ligeros de Proxmox) a respaldar estaban corriendo durante la ventana de backup
- [ ] Verificar que no hay snapshots ZFS (sistema de archivos con integridad de datos) huérfanas consumiendo espacio
Resolución¶
- [ ] Si es problema de espacio: liberar snapshots antiguas o ampliar backuppool
- [ ] Si es problema de conectividad (restic): verificar túnel a Thoth (Raspberry Pi árbitro del clúster y backup offsite), reintentar
- [ ] Si es un LXC (contenedor ligero de Proxmox) que no responde: arrancarlo y lanzar backup manual
pct backup <ID> - [ ] Si el fallo es persistente: reducir el alcance del backup (solo Tier A y 2) y lanzar manual
- [ ] Una vez resuelto: ejecutar verificación de restore con el nuevo backup
Verificación¶
- PBS UI muestra el último job en verde
- ntfy topic
backupconfirma "✅ Backup completado" - Restore de prueba semanal se ejecuta sin errores
- Dashboard de Grafana: última verificación < 24h
Prevención¶
- Monitorizar espacio en backuppool con alerta al 80%
- Verificación semanal automática de restore de un LXC (contenedor ligero de Proxmox) Tier B
- Backup manual antes de cualquier
tofu applyoansible-playbook - Principio 2: Reconstruibilidad total
- Mecanismo 4: Nivel 0 y Espejo Local