Diccionario de alertas
🚧 Parcial — se completará cuando la infraestructura esté desplegada y los topics de ntfy puedan configurarse.
Topics de ntfy
| Topic |
Severidad |
Qué notifica |
Quién debe actuar |
critico |
🚨 Inmediata |
Fallos que requieren acción en <5 min: bomba, ZFS (sistema de archivos con integridad de datos) FAULTED, Tier A caído |
Argos + Terminus |
backup |
🟡 Media |
Resultados de backups nocturnos (PBS (sistema de copias de seguridad de Proxmox) + restic). Si falla 2 días seguidos pasa a critico |
Mnemósine |
updates |
🟢 Baja |
Resumen matinal: SLOs 24h, backups OK, anomalías detectadas |
Argos |
finca |
🟡 Media |
Sensores de campo: peso colmenas, humedad suelo, electrovalla |
Melissa, Deméter, Gea |
sistema |
🟢 Baja |
Estado general: espacio en disco, carga CPU, temperatura |
Argos |
RTO y RPO por Tier
| Tier |
RTO (tiempo para recuperar) |
RPO (datos que se pueden perder) |
| S (Supervivencia) |
< 5 min |
0 (el hardware mantiene el estado) |
| A (Crítico) |
< 15 min |
< 1 hora (snapshots ZFS (sistema de archivos con integridad de datos) cada 15 min) |
| B (Importante) |
< 4 horas |
< 24 horas (backup PBS (sistema de copias de seguridad de Proxmox) diario) |
| C (Conveniente) |
< 24 horas |
< 7 días |
| D (Experimental) |
Sin compromiso |
Sin compromiso |
Matriz de escalado
| Evento |
Primera notificación |
Si no se resuelve en |
| Servicio Tier A caído |
ntfy critico + Matrix |
5 min → repetir alerta |
| Backup fallido (1ª noche) |
ntfy backup |
— (informativo) |
| Backup fallido (2ª noche) |
ntfy critico |
4 horas → Matrix |
| ZFS pool DEGRADED |
ntfy critico + Matrix |
Inmediato |
| Espacio disco >80% |
ntfy sistema |
24 horas → ntfy critico |
| Bomba del pozo no responde |
ntfy critico + Matrix + todas las salas |
Inmediato. Ir físicamente al sótano |
Dependencias críticas (SPOF)
| Servicio |
Si falla, afecta a |
Plan B |
| NetBird |
Todo el acceso remoto de usuarios |
WireGuard emergencia (solo admin) |
| Authentik |
Todos los servicios con OIDC (protocolo de autenticación OpenID Connect) |
WireGuard emergencia + acceso local |
| Pi-hole |
Resolución DNS (servidor de nombres de dominio) de todos los servicios |
/etc/hosts de respaldo en cada LXC (contenedor ligero de Proxmox) |
| Proxmox (Ra (servidor principal de SmallCountry)) |
Todos los LXCs (contenedores ligeros de Proxmox) |
Failover a Horus (WoL (encendido remoto por red) vía Thoth (Raspberry Pi árbitro del clúster y backup offsite)) |
| Caddy |
Todo el tráfico web interno |
Acceso directo por IP (solo admin) |
| MQTT (Mosquitto) |
Todos los sensores y actuadores |
Los Shelly (actuador eléctrico WiFi)/ESP32 (microcontrolador WiFi para sensores) mantienen último estado |
← Inicio