Diario de operaciones¶
🚧 Parcial — se completará cuando la infraestructura esté desplegada y los procedimientos puedan verificarse.
La mayor parte del mantenimiento es automático. El objetivo es que el administrador solo intervenga cuando el sistema no puede resolver algo solo.
Diario (5 minutos)¶
- Revisar ntfy topic
updates— reporte matinal de n8n (07:00) - Si el resumen no ha llegado → investigar n8n
- Revisar ntfy topic
critico— si hay algo, prioridad inmediata - Abrir Grafana: dashboard "SmallCountry Overview"
- Todos los LXCs (contenedores ligeros de Proxmox) Tier A (1) en verde
- Pools ZFS (sistema de archivos con integridad de datos) ONLINE
- Backuppool con espacio >20%
Semanal (15 minutos)¶
- Verificar backups: PBS (sistema de copias de seguridad de Proxmox) UI → últimos jobs en verde
- Comprobar restic offsite a Thoth (si está disponible)
- Revisar alertas de Uptime Kuma: ¿algún servicio ha caído esta semana?
- ZFS (sistema de archivos con integridad de datos):
zpool status— verificar que no hay errores - Espacio en disco:
zfs list— ¿algún dataset >80%?
Mensual (30 minutos)¶
- ZFS scrub:
zpool scrub rpool(programado, verificar resultado) - Simulacro de restore: restaurar un LXC (contenedor ligero de Proxmox) Tier B rotativo desde PBS (sistema de copias de seguridad de Proxmox) en entorno temporal
- Revisar logs de seguridad: Fail2ban, intentos de acceso SSH
- Revisar actualizaciones pendientes: PRs de Renovate en Forgejo >5 → revisar
- Rotación de secretos (trimestral): Ansible Vault regenera contraseñas
Operaciones automáticas (no intervenir)¶
| Tarea | Cuándo | Notifica si falla |
|---|---|---|
| Backup PBS (todos los LXCs) | 03:00-05:30 | ntfy backup |
| Snapshots ZFS pre-update | Antes de cada tofu apply |
Forgejo Actions log |
| Verificación restore semanal | Domingo 05:00 | ntfy backup |
| Restic offsite a Thoth (Raspberry Pi árbitro del clúster y backup offsite) | 02:30 diario | ntfy backup |
| Renovate PRs (actualizaciones) | Lunes 08:00 | Forgejo PRs |
| Actualizaciones apt (seguridad) | 02:00 L-V | ntfy updates |
| deSEC DDNS (DNS (servidor de nombres de dominio) dinámico) update | Cada 5 min | — |
Cuándo actuar manualmente¶
| Disparador | Acción |
|---|---|
Alerta en ntfy critico |
Actuar inmediatamente según diccionario de alertas |
| PBS job fallido 2 noches seguidas | Investigar en PBS UI |
| PRs de Renovate acumulados >5 | Revisar y aprobar/descartar |
| Espacio en backuppool >80% | Liberar snapshots antiguas |
| ZFS pool DEGRADED | 🚧 Runbook pendiente de crear |
← Inicio