7. Presupuesto de Observabilidad¶
Observar el sistema está bien; ser inundado por métricas que nadie consulta, no tanto. El Presupuesto de Observabilidad aplica contención a la monitorización: solo se observa lo que realmente se necesita, y lo que no se usa se apaga.
Niveles de monitorización¶
| Nivel | Servicios | Qué se monitoriza |
|---|---|---|
| Completo | Tier A-2 | CPU, RAM, disco, red, healthchecks, logs, dashboard dedicado, alertas |
| Ligero | Tier C-4 | CPU, RAM, healthchecks. Visible solo en overview |
| Mínimo | Tier D | Solo healthcheck durante ventana activa |
Caducidad¶
- Dashboard no consultado en 1 mes → se desactiva (no se borra, se puede reactivar)
- Métrica sin alerta ni consulta en 3 meses → deja de recolectarse
- Deuda de Observabilidad: panel en Grafana que muestra servicios sin cobertura completa
Retención de logs¶
| Tier | Logs | Métricas |
|---|---|---|
| Tier A (crítico) | 1 año | 5 años |
| Tier B (importante) | 90 días | 2 años |
| Tier C (ocio) | 30 días | 6 meses |
| Métricas de finca | — | 10 años |
Relaciones¶
- Presupuesto de Complejidad: mismo principio aplicado a métricas
- Contratos de Datos: cada métrica recolectada debe tener un propósito (alerta, dashboard, SLO (objetivo de nivel de servicio))
Los tres tipos de observabilidad¶
No toda la observabilidad es igual. SmallCountry distingue tres dominios con necesidades diferentes:
| Tipo | Qué mide | Ejemplos | Stack |
|---|---|---|---|
| Técnica | Salud de la infraestructura | CPU, RAM, temperatura, red, VPN, almacenamiento, energía, disponibilidad | Prometheus + VictoriaMetrics + Grafana |
| Operacional | Procesos del ecosistema | Workflows de n8n, automatizaciones de Node-RED, procesos agrícolas en farmOS, logística, eventos de IA | Loki/VictoriaLogs + Grafana + Hermes Agent (skill smallcountry-logs) |
| UX | Experiencia de las personas | Clics, navegación, tiempos de carga, funnels de usuario, degradación de experiencia, interacción humano-sistema | PostHog / Matomo (planificado) |
La observabilidad técnica responde a "¿está funcionando?". La operacional responde a "¿está haciendo lo que debe?". La de UX responde a "¿las personas pueden usarlo?".
SkyEye —el sistema de observabilidad en su conjunto— observa los tres dominios pero NO actúa directamente. La acción corresponde a The Resistance (n8n, Semaphore, Ansible) cuando se detecta una degradación, o a BlackOps (Fail2Ban (protección contra intrusiones por fuerza bruta), Suricata) cuando se detecta una amenaza.