Saltar a contenido

🔬 Ciencia Abierta

Proyecto de Publicación — Datos FAIR con anonimización desde El Salto

Datasets mensuales con DOI. Estándares Darwin Core, DataCite, Dublin Core.
InvenioRDM autoalojado. Anonimización espacial y privacidad diferencial.
Proyecto transversal de ⛰️ El Salto.

Versión 1.0 · Mayo 2026


1. Resumen Ejecutivo

El proyecto de Ciencia Abierta de El Salto es el responsable de publicar los datos generados por todos los demás proyectos de la finca bajo estándares FAIR (Findable, Accessible, Interoperable, Reusable), con una capa de anonimización que protege la información sensible sin renunciar a la transparencia.

Cada mes, el pipeline automático recoge datos de sensores, registros de campo en farmOS, detecciones de biodiversidad (BirdNET, Frigate, MegaDetector) y los publica en InvenioRDM con un DOI único que hace cada dataset citable y rastreable.

Los datasets aparecen indexados en Google Dataset Search, OpenAIRE y DataCite Search, posicionando a El Salto como referencia de ciencia abierta en agricultura regenerativa.

Visión: Que cualquier investigador del mundo pueda verificar con datos reales que la agricultura regenerativa funciona, sin comprometer la seguridad ni la intimidad de la finca.


2. Qué datos se publican

Proyecto Datos publicados Periodicidad
🌾 Agricultura Regenerativa NDVI, humedad del suelo, temperatura, 10 criterios regenerativos, biodiversidad (aves, fauna, flora) Mensual
🐝 Corral del Viento Peso de colmenas, temperatura interior, producción de miel, espectro polínico, morfometría alar Mensual
🐔 Gallinero Puesta por raza, temperatura/humedad de gallineros, tiempo de pastoreo Mensual
🌦️ Proyecto Clima Temperatura, precipitación, viento, radiación solar, ET₀, microclima por zona Mensual

3. Estrategia de anonimización

Inspirada en GBIF (Global Biodiversity Information Facility):

Capa Técnica Aplica a
Redondeo espacial Coordenadas a 0.01° (~1.1 km) para datos productivos; 0.001° (~110 m) para biodiversidad no sensible Sensores, cultivos, fauna
Privacidad diferencial Ruido Laplaciano con ε=1.0 para volúmenes de producción Cosechas, miel, huevos
Agregación temporal Mensual o trimestral, nunca diario Producción, sensores
Agregación espacial Por zona o raza, no por parcela o ejemplar Rendimientos, genética
Revisión humana El responsable revisa y aprueba antes de publicar Todo dataset

Cada dataset incluye metadatos Darwin Core estandarizados:

{
  "dataGeneralizations": "Coordenadas redondeadas a 0.01°. Volúmenes con DP ε=1.0.",
  "informationWithheld": "Ubicación exacta de cultivos y colmenas experimentales. Producción diaria.",
  "coordinateUncertaintyInMeters": 1100,
  "coordinatePrecision": 0.01
}

4. Pipeline de publicación

Día 1 de cada mes:
  Sensores + farmOS + BirdNET + Frigate + MegaDetector
  n8n: extraer, formatear, empaquetar
  [ANONIMIZACIÓN] n8n: redondear coordenadas, aplicar DP, agregar
  API POST → InvenioRDM (metadatos FAIR + campos de anonimización)
  Notificación al responsable → revisar → aprobar
  Dataset público con DOI, indexado en Google Dataset Search

5. Estándares que sigue

Estándar Para qué
FAIR Findable, Accessible, Interoperable, Reusable — 15 principios
DataCite Metadatos de citación y DOI único por dataset
Dublin Core Metadatos bibliográficos universales
Darwin Core Estándar de biodiversidad de GBIF
CC BY 4.0 Licencia de los datos — atribución requerida, uso libre
CC0 Licencia de los metadatos — dominio público
Frictionless Data datapackage.json para validación y portabilidad

Guía detallada: estándares y pipeline de anonimización


6. Integración con SmallCountry

6.1 Servicios que usará

Recurso Para qué
InvenioRDM Repositorio de datos científicos con DOI
n8n Pipeline automático de publicación mensual
Forgejo Scripts de anonimización (Python, OpenDP)
MkDocs Documentación de datasets y metodología
Victoria Metrics Fuente de datos de sensores y métricas
PostGIS Fuente de datos geoespaciales
Zona Cero Servicio de datasets públicos (aislado del núcleo)
Para el administrador

Servicio InvenioRDM

LXC Por asignar
IP Por asignar — Zona Cero
Tier C — Conveniente
Impacto 🟢 Caída = publicación pospuesta al mes siguiente
Dominio datos.elsalto.sc
ZFS dataset rpool/datos/invenio/
Backup PBS diario + ZFS snapshot @15min

Healthchecks

curl -s https://datos.elsalto.sc/api/records | jq '.hits.total'

Pipeline mensual

El día 1 de cada mes a las 02:00 UTC, n8n ejecuta el flujo ciencia-abierta-mensual. Monitorizar en n8n.elsalto.sc.

Para el arquitecto

Diagrama del pipeline de publicación

flowchart LR
    subgraph Fuentes["📡 Fuentes"]
        Sensores[Sensores IoT]
        farmOS[farmOS]
        BirdNET[BirdNET]
        Frigate[Frigate]
    end

    subgraph Pipeline["⚙️ Pipeline n8n"]
        Extraer[Extraer datos]
        Formatear[Formatear<br/>Darwin Core]
        Anonimizar[Anonimizar<br/>redondeo + DP]
        Validar[Validar<br/>k-anonimidad]
    end

    subgraph Publicacion["🔬 Publicación"]
        Invenio[InvenioRDM]
        DOI[DOI DataCite]
    end

    subgraph Indexacion["🌐 Indexación"]
        GoogleDS[Google Dataset Search]
        OpenAIRE[OpenAIRE]
    end

    Sensores --> Extraer
    farmOS --> Extraer
    BirdNET --> Extraer
    Frigate --> Extraer

    Extraer --> Formatear
    Formatear --> Anonimizar
    Anonimizar --> Validar
    Validar --> Invenio
    Invenio --> DOI
    DOI --> GoogleDS
    DOI --> OpenAIRE

Scripts de anonimización

Versionados en Forgejo (repos/ciencia-abierta/):

  • anonymize_coords.py — redondeo espacial estilo GBIF
  • apply_dp.py — privacidad diferencial con OpenDP (ε configurable)
  • validate_k_anon.py — verificación de k-anonimidad
  • build_datapackage.py — generación del datapackage.json

Orquestación

Componente Path
Flujo n8n ciencia-abierta-mensual
Rol Ansible roles/ciencia-abierta/
Forgejo Actions .forgejo/workflows/ciencia-abierta.yml

7. Hoja de Ruta

  • [ ] Desplegar InvenioRDM en la Zona Cero
  • [ ] Configurar el pipeline n8n de publicación mensual
  • [ ] Implementar scripts de anonimización (redondeo + DP)
  • [ ] Registrar el prefijo DOI con DataCite
  • [ ] Publicar el primer dataset con metadatos FAIR y anonimización
  • [ ] Aparecer en Google Dataset Search, OpenAIRE y DataCite Search
  • [ ] Evaluar la federación con GBIF para datos de biodiversidad
  • [ ] Explorar la integración con ORCID para identificadores de autor

Ciencia Abierta · El Salto, Garganta la Olla, La Vera, Cáceres · Mayo 2026


Voluntariado

Ciencia Abierta está abierta a voluntarios interesados en investigación, datos y biodiversidad.

Si te interesa... Puedes colaborar en...
Biodiversidad Identificación de especies con iNaturalist, fototrampeo, muestreo de campo
Datos científicos Limpieza y validación de datasets, mapeo a Darwin Core, preparación de publicaciones
Documentación Redacción de metadatos, asignación de DOIs, mantenimiento del repositorio InvenioRDM
Ciencia ciudadana Participación en BioBlitz, censos de aves, inventarios florales

Las colaboraciones se coordinan desde El Salto.


Secciones relacionadas


Proyectos