Saltar a contenido

Diccionario de alertas

🚧 Parcial — se completará cuando la infraestructura esté desplegada y los topics de ntfy puedan configurarse.


Topics de ntfy

Topic Severidad Qué notifica Quién debe actuar
critico 🚨 Inmediata Fallos que requieren acción en <5 min: bomba, ZFS (sistema de archivos con integridad de datos) FAULTED, Tier A caído Argos + Terminus
backup 🟡 Media Resultados de backups nocturnos (PBS (sistema de copias de seguridad de Proxmox) + restic). Si falla 2 días seguidos pasa a critico Mnemósine
updates 🟢 Baja Resumen matinal: SLOs 24h, backups OK, anomalías detectadas Argos
finca 🟡 Media Sensores de campo: peso colmenas, humedad suelo, electrovalla Melissa, Deméter, Gea
sistema 🟢 Baja Estado general: espacio en disco, carga CPU, temperatura Argos

RTO y RPO por Tier

Tier RTO (tiempo para recuperar) RPO (datos que se pueden perder)
S (Supervivencia) < 5 min 0 (el hardware mantiene el estado)
A (Crítico) < 15 min < 1 hora (snapshots ZFS (sistema de archivos con integridad de datos) cada 15 min)
B (Importante) < 4 horas < 24 horas (backup PBS (sistema de copias de seguridad de Proxmox) diario)
C (Conveniente) < 24 horas < 7 días
D (Experimental) Sin compromiso Sin compromiso

Matriz de escalado

Evento Primera notificación Si no se resuelve en
Servicio Tier A caído ntfy critico + Matrix 5 min → repetir alerta
Backup fallido (1ª noche) ntfy backup — (informativo)
Backup fallido (2ª noche) ntfy critico 4 horas → Matrix
ZFS pool DEGRADED ntfy critico + Matrix Inmediato
Espacio disco >80% ntfy sistema 24 horas → ntfy critico
Bomba del pozo no responde ntfy critico + Matrix + todas las salas Inmediato. Ir físicamente al sótano

Dependencias críticas (SPOF)

Servicio Si falla, afecta a Plan B
NetBird Todo el acceso remoto de usuarios WireGuard emergencia (solo admin)
Authentik Todos los servicios con OIDC (protocolo de autenticación OpenID Connect) WireGuard emergencia + acceso local
Pi-hole Resolución DNS (servidor de nombres de dominio) de todos los servicios /etc/hosts de respaldo en cada LXC (contenedor ligero de Proxmox)
Proxmox (Ra (servidor principal de SmallCountry)) Todos los LXCs (contenedores ligeros de Proxmox) Failover a Horus (WoL (encendido remoto por red) vía Thoth (Raspberry Pi árbitro del clúster y backup offsite))
Caddy Todo el tráfico web interno Acceso directo por IP (solo admin)
MQTT (Mosquitto) Todos los sensores y actuadores Los Shelly (actuador eléctrico WiFi)/ESP32 (microcontrolador WiFi para sensores) mantienen último estado

Inicio