Saltar a contenido

Diario de operaciones

🚧 Parcial — se completará cuando la infraestructura esté desplegada y los procedimientos puedan verificarse.


La mayor parte del mantenimiento es automático. El objetivo es que el administrador solo intervenga cuando el sistema no puede resolver algo solo.

Diario (5 minutos)

  • Revisar ntfy topic updates — reporte matinal de n8n (07:00)
  • Si el resumen no ha llegado → investigar n8n
  • Revisar ntfy topic critico — si hay algo, prioridad inmediata
  • Abrir Grafana: dashboard "SmallCountry Overview"
  • Todos los LXCs (contenedores ligeros de Proxmox) Tier A (1) en verde
  • Pools ZFS (sistema de archivos con integridad de datos) ONLINE
  • Backuppool con espacio >20%

Semanal (15 minutos)

  • Verificar backups: PBS (sistema de copias de seguridad de Proxmox) UI → últimos jobs en verde
  • Comprobar restic offsite a Thoth (si está disponible)
  • Revisar alertas de Uptime Kuma: ¿algún servicio ha caído esta semana?
  • ZFS (sistema de archivos con integridad de datos): zpool status — verificar que no hay errores
  • Espacio en disco: zfs list — ¿algún dataset >80%?

Mensual (30 minutos)

  • ZFS scrub: zpool scrub rpool (programado, verificar resultado)
  • Simulacro de restore: restaurar un LXC (contenedor ligero de Proxmox) Tier B rotativo desde PBS (sistema de copias de seguridad de Proxmox) en entorno temporal
  • Revisar logs de seguridad: Fail2ban, intentos de acceso SSH
  • Revisar actualizaciones pendientes: PRs de Renovate en Forgejo >5 → revisar
  • Rotación de secretos (trimestral): Ansible Vault regenera contraseñas

Operaciones automáticas (no intervenir)

Tarea Cuándo Notifica si falla
Backup PBS (todos los LXCs) 03:00-05:30 ntfy backup
Snapshots ZFS pre-update Antes de cada tofu apply Forgejo Actions log
Verificación restore semanal Domingo 05:00 ntfy backup
Restic offsite a Thoth (Raspberry Pi árbitro del clúster y backup offsite) 02:30 diario ntfy backup
Renovate PRs (actualizaciones) Lunes 08:00 Forgejo PRs
Actualizaciones apt (seguridad) 02:00 L-V ntfy updates
deSEC DDNS (DNS (servidor de nombres de dominio) dinámico) update Cada 5 min

Cuándo actuar manualmente

Disparador Acción
Alerta en ntfy critico Actuar inmediatamente según diccionario de alertas
PBS job fallido 2 noches seguidas Investigar en PBS UI
PRs de Renovate acumulados >5 Revisar y aprobar/descartar
Espacio en backuppool >80% Liberar snapshots antiguas
ZFS pool DEGRADED 🚧 Runbook pendiente de crear

Inicio