Saltar a contenido

Runbook: Backup fallido

🚧 En construcción — este procedimiento se documentará cuando la infraestructura esté desplegada y el escenario pueda probarse.

Gravedad 🟡 Media — no hay riesgo inmediato, pero la ventana de vulnerabilidad crece
Tiempo de respuesta < 4 horas (si falla 2 noches seguidas, pasar a 🔴)
Roles implicados Mnemósine (backups), Argos (detección), Terminus (si hay que restaurar)

Un backup que falla una noche es un aviso. Un backup que falla dos noches seguidas es una emergencia: cada hora sin copia aumenta lo que se puede perder.

Síntomas

  • Alerta en ntfy topic backup: "❌ PBS (sistema de copias de seguridad de Proxmox) job fallido"
  • Alerta en ntfy topic backup: "❌ restic offsite fallido"
  • PBS (sistema de copias de seguridad de Proxmox) UI muestra el último job en rojo
  • Dashboard de Grafana: última verificación de backup > 24h

Diagnóstico

  • [ ] Verificar PBS UI: https://pbs.sc → Jobs → último job fallido
  • [ ] Comprobar espacio en disco: zpool list backuppool
  • [ ] Verificar conectividad con Thoth (restic offsite)
  • [ ] Revisar logs del job fallido en PBS
  • [ ] Comprobar que los LXCs (contenedores ligeros de Proxmox) a respaldar estaban corriendo durante la ventana de backup
  • [ ] Verificar que no hay snapshots ZFS (sistema de archivos con integridad de datos) huérfanas consumiendo espacio

Resolución

  • [ ] Si es problema de espacio: liberar snapshots antiguas o ampliar backuppool
  • [ ] Si es problema de conectividad (restic): verificar túnel a Thoth (Raspberry Pi árbitro del clúster y backup offsite), reintentar
  • [ ] Si es un LXC (contenedor ligero de Proxmox) que no responde: arrancarlo y lanzar backup manual pct backup <ID>
  • [ ] Si el fallo es persistente: reducir el alcance del backup (solo Tier A y 2) y lanzar manual
  • [ ] Una vez resuelto: ejecutar verificación de restore con el nuevo backup

Verificación

  • PBS UI muestra el último job en verde
  • ntfy topic backup confirma "✅ Backup completado"
  • Restore de prueba semanal se ejecuta sin errores
  • Dashboard de Grafana: última verificación < 24h

Prevención