🔬 Ciencia Abierta¶
Proyecto de Publicación — Datos FAIR con anonimización desde El Salto¶
Datasets mensuales con DOI. Estándares Darwin Core, DataCite, Dublin Core.
InvenioRDM autoalojado. Anonimización espacial y privacidad diferencial.
Proyecto transversal de ⛰️ El Salto.
Versión 1.0 · Mayo 2026
1. Resumen Ejecutivo¶
El proyecto de Ciencia Abierta de El Salto es el responsable de publicar los datos generados por todos los demás proyectos de la finca bajo estándares FAIR (Findable, Accessible, Interoperable, Reusable), con una capa de anonimización que protege la información sensible sin renunciar a la transparencia.
Cada mes, el pipeline automático recoge datos de sensores, registros de campo en farmOS, detecciones de biodiversidad (BirdNET, Frigate, MegaDetector) y los publica en InvenioRDM con un DOI único que hace cada dataset citable y rastreable.
Los datasets aparecen indexados en Google Dataset Search, OpenAIRE y DataCite Search, posicionando a El Salto como referencia de ciencia abierta en agricultura regenerativa.
Visión: Que cualquier investigador del mundo pueda verificar con datos reales que la agricultura regenerativa funciona, sin comprometer la seguridad ni la intimidad de la finca.
2. Qué datos se publican¶
| Proyecto | Datos publicados | Periodicidad |
|---|---|---|
| 🌾 Agricultura Regenerativa | NDVI, humedad del suelo, temperatura, 10 criterios regenerativos, biodiversidad (aves, fauna, flora) | Mensual |
| 🐝 Corral del Viento | Peso de colmenas, temperatura interior, producción de miel, espectro polínico, morfometría alar | Mensual |
| 🐔 Gallinero | Puesta por raza, temperatura/humedad de gallineros, tiempo de pastoreo | Mensual |
| 🌦️ Proyecto Clima | Temperatura, precipitación, viento, radiación solar, ET₀, microclima por zona | Mensual |
3. Estrategia de anonimización¶
Inspirada en GBIF (Global Biodiversity Information Facility):
| Capa | Técnica | Aplica a |
|---|---|---|
| Redondeo espacial | Coordenadas a 0.01° (~1.1 km) para datos productivos; 0.001° (~110 m) para biodiversidad no sensible | Sensores, cultivos, fauna |
| Privacidad diferencial | Ruido Laplaciano con ε=1.0 para volúmenes de producción | Cosechas, miel, huevos |
| Agregación temporal | Mensual o trimestral, nunca diario | Producción, sensores |
| Agregación espacial | Por zona o raza, no por parcela o ejemplar | Rendimientos, genética |
| Revisión humana | El responsable revisa y aprueba antes de publicar | Todo dataset |
Cada dataset incluye metadatos Darwin Core estandarizados:
{
"dataGeneralizations": "Coordenadas redondeadas a 0.01°. Volúmenes con DP ε=1.0.",
"informationWithheld": "Ubicación exacta de cultivos y colmenas experimentales. Producción diaria.",
"coordinateUncertaintyInMeters": 1100,
"coordinatePrecision": 0.01
}
4. Pipeline de publicación¶
Día 1 de cada mes:
Sensores + farmOS + BirdNET + Frigate + MegaDetector
↓
n8n: extraer, formatear, empaquetar
↓
[ANONIMIZACIÓN] n8n: redondear coordenadas, aplicar DP, agregar
↓
API POST → InvenioRDM (metadatos FAIR + campos de anonimización)
↓
Notificación al responsable → revisar → aprobar
↓
Dataset público con DOI, indexado en Google Dataset Search
5. Estándares que sigue¶
| Estándar | Para qué |
|---|---|
| FAIR | Findable, Accessible, Interoperable, Reusable — 15 principios |
| DataCite | Metadatos de citación y DOI único por dataset |
| Dublin Core | Metadatos bibliográficos universales |
| Darwin Core | Estándar de biodiversidad de GBIF |
| CC BY 4.0 | Licencia de los datos — atribución requerida, uso libre |
| CC0 | Licencia de los metadatos — dominio público |
| Frictionless Data | datapackage.json para validación y portabilidad |
→ Guía detallada: estándares y pipeline de anonimización
6. Integración con
SmallCountry¶
6.1 Servicios que usará¶
| Recurso | Para qué |
|---|---|
| InvenioRDM | Repositorio de datos científicos con DOI |
| n8n | Pipeline automático de publicación mensual |
| Forgejo | Scripts de anonimización (Python, OpenDP) |
| MkDocs | Documentación de datasets y metodología |
| Victoria Metrics | Fuente de datos de sensores y métricas |
| PostGIS | Fuente de datos geoespaciales |
| Zona Cero | Servicio de datasets públicos (aislado del núcleo) |
Para el administrador
Servicio InvenioRDM¶
| LXC | Por asignar |
| IP | Por asignar — Zona Cero |
| Tier | C — Conveniente |
| Impacto | 🟢 Caída = publicación pospuesta al mes siguiente |
| Dominio | datos.elsalto.sc |
| ZFS dataset | rpool/datos/invenio/ |
| Backup | PBS diario + ZFS snapshot @15min |
Healthchecks¶
Pipeline mensual¶
El día 1 de cada mes a las 02:00 UTC, n8n ejecuta el flujo ciencia-abierta-mensual. Monitorizar en n8n.elsalto.sc.
Para el arquitecto
Diagrama del pipeline de publicación¶
flowchart LR
subgraph Fuentes["📡 Fuentes"]
Sensores[Sensores IoT]
farmOS[farmOS]
BirdNET[BirdNET]
Frigate[Frigate]
end
subgraph Pipeline["⚙️ Pipeline n8n"]
Extraer[Extraer datos]
Formatear[Formatear<br/>Darwin Core]
Anonimizar[Anonimizar<br/>redondeo + DP]
Validar[Validar<br/>k-anonimidad]
end
subgraph Publicacion["🔬 Publicación"]
Invenio[InvenioRDM]
DOI[DOI DataCite]
end
subgraph Indexacion["🌐 Indexación"]
GoogleDS[Google Dataset Search]
OpenAIRE[OpenAIRE]
end
Sensores --> Extraer
farmOS --> Extraer
BirdNET --> Extraer
Frigate --> Extraer
Extraer --> Formatear
Formatear --> Anonimizar
Anonimizar --> Validar
Validar --> Invenio
Invenio --> DOI
DOI --> GoogleDS
DOI --> OpenAIRE
Scripts de anonimización¶
Versionados en Forgejo (repos/ciencia-abierta/):
anonymize_coords.py— redondeo espacial estilo GBIFapply_dp.py— privacidad diferencial con OpenDP (ε configurable)validate_k_anon.py— verificación de k-anonimidadbuild_datapackage.py— generación deldatapackage.json
Orquestación¶
| Componente | Path |
|---|---|
| Flujo n8n | ciencia-abierta-mensual |
| Rol Ansible | roles/ciencia-abierta/ |
| Forgejo Actions | .forgejo/workflows/ciencia-abierta.yml |
7. Hoja de Ruta¶
- [ ] Desplegar InvenioRDM en la Zona Cero
- [ ] Configurar el pipeline n8n de publicación mensual
- [ ] Implementar scripts de anonimización (redondeo + DP)
- [ ] Registrar el prefijo DOI con DataCite
- [ ] Publicar el primer dataset con metadatos FAIR y anonimización
- [ ] Aparecer en Google Dataset Search, OpenAIRE y DataCite Search
- [ ] Evaluar la federación con GBIF para datos de biodiversidad
- [ ] Explorar la integración con ORCID para identificadores de autor
Ciencia Abierta · El Salto, Garganta la Olla, La Vera, Cáceres · Mayo 2026
Voluntariado¶
Ciencia Abierta está abierta a voluntarios interesados en investigación, datos y biodiversidad.
| Si te interesa... | Puedes colaborar en... |
|---|---|
| Biodiversidad | Identificación de especies con iNaturalist, fototrampeo, muestreo de campo |
| Datos científicos | Limpieza y validación de datasets, mapeo a Darwin Core, preparación de publicaciones |
| Documentación | Redacción de metadatos, asignación de DOIs, mantenimiento del repositorio InvenioRDM |
| Ciencia ciudadana | Participación en BioBlitz, censos de aves, inventarios florales |
Las colaboraciones se coordinan desde El Salto.
Secciones relacionadas¶
- Proyecto matriz: ⛰️ El Salto
- Guía completa: Ciencia abierta en SmallCountry
- Compromiso: Conocimiento y ciencia
- Ficha: InvenioRDM
- Ficha: Forgejo
- Ficha: n8n