Saltar a contenido

Resiliencia que desafía al caos

Cortes de luz, fallos de conexión, desastres naturales. SmallCountry está diseñado para sobrevivir a todo. La finca sigue operando aunque el servidor principal duerma. Las copias de seguridad se verifican solas. Y si todo falla, en minutos estás de vuelta.


El problema que resolvemos

Cuando dependes de servicios externos, tu vida digital es tan frágil como la infraestructura de otra empresa. Un corte de internet y tus archivos en la nube desaparecen. Un fallo en el centro de datos y pierdes el acceso a tus herramientas de trabajo. Un cambio de política de la compañía y el servicio que usabas a diario deja de existir. Si el proveedor no tiene copias de seguridad —o no las prueba—, tus datos se pierden para siempre. Y tú no puedes hacer nada porque la infraestructura no es tuya.

SmallCountry elimina esa dependencia. Cada escenario de fallo está contemplado, cada recuperación está automatizada y cada copia de seguridad se verifica semanalmente. El sistema está diseñado para recomponerse solo.

Cómo lo hacemos posible

La resiliencia no es una promesa: es una propiedad verificable del sistema, construida capa por capa. Cada escenario de fallo tiene una respuesta planificada, probada y automatizada. No dependemos de que alguien se dé cuenta a tiempo ni de que recuerde qué hacer.

Cuando se va la luz

Un corte de suministro eléctrico no pilla a SmallCountry desprevenido. El SAI (sistema de alimentación ininterrumpida) protege el servidor principal, el router y el switch, proporcionando hasta sesenta minutos de autonomía. apcupsd, el servicio que monitoriza el estado de la batería, expone métricas en tiempo real a Prometheus y notifica de inmediato a través de ntfy cuando se activa la batería. Sabes que hay un corte, cuánto tiempo queda y qué está pasando, incluso si estás lejos.

Si la batería se acerca a un nivel crítico, el servidor se apaga de forma ordenada para evitar cualquier corrupción de datos. Cuando la luz vuelve, Proxmox VE arranca automáticamente y todos los servicios se levantan sin intervención humana. La finca, mientras tanto, ni se ha enterado: su propia instalación solar y sus baterías mantienen operativos los sensores, las colmenas y el control de riego.

Cuando falla un disco

Los discos duros fallan. Es cuestión de tiempo. SmallCountry está preparado para ese momento con múltiples capas de protección.

ZFS, el sistema de archivos que utiliza todos los servidores, verifica continuamente la integridad de cada bit almacenado mediante sumas de verificación. Si detecta corrupción, la corrige automáticamente antes de que se convierta en un problema. Las instantáneas automáticas permiten volver atrás en el tiempo si algo se modifica por error.

Si un disco falla físicamente, ZFS puede reconstruir los datos desde la redundancia sin perder un solo archivo. Para el pool principal, un segundo disco en configuración mirror garantiza que todo sigue funcionando mientras se reemplaza el disco dañado. El sistema te avisa del fallo, te dice exactamente qué disco es y te permite sustituirlo sin apagar nada.

PBS (Proxmox Backup Server) realiza copias de seguridad diarias de todos los servicios. Pero no se limita a guardar archivos: restaura servicios completos en entornos temporales para comprobar que la recuperación funciona. Un backup que no se ha restaurado nunca no es un backup. El nuestro se prueba cada semana.

cv4pve-autosnap toma instantáneas automáticas antes de cada actualización. Si algo sale mal, volver al estado anterior es cuestión de segundos.

Cuando falla el servidor principal

El servidor central de casa —Ra (servidor principal de SmallCountry)— es el corazón del sistema, pero el sistema está diseñado para latir sin él.

Si Ra falla, Horus (servidor secundario con GPU para IA), el servidor secundario, puede tomar el relevo. Ambos forman un clúster de alta disponibilidad gestionado por Proxmox VE, con Thoth (Raspberry Pi árbitro del clúster y backup offsite) —una pequeña Raspberry Pi en otra ubicación— actuando como árbitro para mantener el consenso. Horus se despierta automáticamente mediante Wake-on-LAN cuando Thoth detecta que Ra no responde, y los servicios críticos migran en menos de quince minutos.

Ansible y Semaphore contienen la receta completa para reconstruir cualquier servicio desde cero. Si hay que recrear un contenedor, un playbook lo hace en minutos. Si hay que reconstruir el sistema entero, los playbooks lo despliegan desde un Proxmox limpio sin intervención manual.

Los datos sobreviven a la destrucción del hardware. PBS guarda copias de seguridad de todo el sistema. rsync replica una copia adicional de los archivos de la familia —fotos, documentos, notas— en su formato original (JPG, PDF, Markdown) a un disco dedicado en Horus. Incluso si todo el software desapareciera, tus archivos serían legibles por cualquier programa estándar.

Cuando internet desaparece

SmallCountry no depende de internet para funcionar. Todos los servicios se alojan en servidores locales, dentro de tu propia red. Cuando estás en casa, la comunicación entre tus dispositivos y los servicios es directa, sin pasar por la red exterior.

Pi-hole resuelve los nombres de los servicios localmente, sin consultar a proveedores externos de DNS (servidor de nombres de dominio). Las aplicaciones de tu móvil, tableta u ordenador se conectan directamente a los servidores de casa, sin depender de que internet esté operativo.

Los datos que normalmente vienen del exterior —previsiones meteorológicas, precios de la electricidad, imágenes de satélite— se descargan, validan y almacenan en caché mientras hay conexión. Cuando internet se va, n8n y Node-RED siguen usando la última copia disponible. Los servicios no notan la diferencia.

La finca, además, tiene su propio controlador local: Geb, un Cerbo GX de Victron con su propio Node-RED y Mosquitto. Si la conexión con casa se pierde, la finca sigue funcionando de forma autónoma. Los sensores de humedad del suelo, las básculas de las colmenas y los controladores de riego operan con sus propios umbrales de seguridad, sin depender de Ra.

Cuando un desastre golpea de verdad

Un incendio, una inundación, un robo. Escenarios extremos para los que SmallCountry también está preparado.

Las copias de seguridad existen en múltiples ubicaciones y en múltiples formatos. PBS guarda instantáneas de todo el sistema en discos locales. rsync replica los archivos de la familia a Horus. Un disco externo con LUKS cifrado recibe una copia mensual que se guarda físicamente en otro lugar. Y restic envía una copia cifrada a Thoth, en otra ubicación geográfica distinta.

Forgejo contiene todo el código de la infraestructura, incluyendo los playbooks de Ansible que permiten reconstruir el sistema desde cero. MkDocs contiene la documentación completa, accesible incluso sin conexión. Los datos de la familia existen en formato original en Horus, legibles sin necesidad de ningún programa especial.

Si el hardware de casa desapareciera por completo, podrías comprar un servidor nuevo, instalar Proxmox, clonar el repositorio de Forgejo desde Thoth, ejecutar un solo comando y ver cómo todo SmallCountry se reconstruye automáticamente. En minutos, no en días.


En resumen

SmallCountry está diseñado para que los fallos sean eventos predecibles, no catástrofes. Cada capa —desde el SAI que protege el hardware hasta las copias de seguridad offsite, pasando por el clúster de alta disponibilidad, los snapshots automáticos y la autonomía de la finca— está pensada para que el sistema se recupere solo. Y si lo peor ocurre, la reconstrucción completa está automatizada, documentada y probada.


Secciones relacionadas

Software libre   |   Libertad sin anuncios