Saltar a contenido

7. Presupuesto de Observabilidad

Observar el sistema está bien; ser inundado por métricas que nadie consulta, no tanto. El Presupuesto de Observabilidad aplica contención a la monitorización: solo se observa lo que realmente se necesita, y lo que no se usa se apaga.


Niveles de monitorización

Nivel Servicios Qué se monitoriza
Completo Tier A-2 CPU, RAM, disco, red, healthchecks, logs, dashboard dedicado, alertas
Ligero Tier C-4 CPU, RAM, healthchecks. Visible solo en overview
Mínimo Tier D Solo healthcheck durante ventana activa

Caducidad

  • Dashboard no consultado en 1 mes → se desactiva (no se borra, se puede reactivar)
  • Métrica sin alerta ni consulta en 3 meses → deja de recolectarse
  • Deuda de Observabilidad: panel en Grafana que muestra servicios sin cobertura completa

Retención de logs

Tier Logs Métricas
Tier A (crítico) 1 año 5 años
Tier B (importante) 90 días 2 años
Tier C (ocio) 30 días 6 meses
Métricas de finca 10 años

Relaciones

Los tres tipos de observabilidad

No toda la observabilidad es igual. SmallCountry distingue tres dominios con necesidades diferentes:

Tipo Qué mide Ejemplos Stack
Técnica Salud de la infraestructura CPU, RAM, temperatura, red, VPN, almacenamiento, energía, disponibilidad Prometheus + VictoriaMetrics + Grafana
Operacional Procesos del ecosistema Workflows de n8n, automatizaciones de Node-RED, procesos agrícolas en farmOS, logística, eventos de IA Loki/VictoriaLogs + Grafana + Hermes Agent (skill smallcountry-logs)
UX Experiencia de las personas Clics, navegación, tiempos de carga, funnels de usuario, degradación de experiencia, interacción humano-sistema PostHog / Matomo (planificado)

La observabilidad técnica responde a "¿está funcionando?". La operacional responde a "¿está haciendo lo que debe?". La de UX responde a "¿las personas pueden usarlo?".

SkyEye —el sistema de observabilidad en su conjunto— observa los tres dominios pero NO actúa directamente. La acción corresponde a The Resistance (n8n, Semaphore, Ansible) cuando se detecta una degradación, o a BlackOps (Fail2Ban (protección contra intrusiones por fuerza bruta), Suricata) cuando se detecta una amenaza.


Secciones relacionadas