Saltar a contenido

SmallCountry

Whisper + Piper — Transcripción y síntesis de voz ⚰️ REEMPLAZADO

Whisper + Piper

Voz · Transcripción · Texto a voz · Audio

⚰️ Reemplazado por Hermes Agent

Whisper + Piper — Transcripción y síntesis de voz ⚰️ REEMPLAZADO¶

Este servicio ha sido reemplazado por las capacidades de voz de Hermes Agent.
Hermes integra STT local con faster-whisper (modelos tiny/base/small/large-v3, ~150MB, sin API keys)
y TTS con Edge TTS (gratis, 322 voces, 74 idiomas) o NeuTTS (local).
La voz se recibe por Telegram/Discord, se transcribe, se procesa con Ollama y se responde con síntesis de voz.
Esta ficha se conserva como referencia histórica.

Como usuario¶

Convierte audio a texto (Whisper) y texto a audio (Piper). Permitiría grabar notas de voz en el campo y que el sistema las transcriba automáticamente a texto estructurado en farmOS o Joplin.

Funcionalidad	Navegador	Ubuntu	Android	FireTV
Grabación y transcripción	❌	❌	✅	❌

Integrado en el flujo de trabajo — sin interfaz propia. Se usa a través del asistente IA o desde la app de notas.
Grabar notas de voz desde el móvil en el campo → el sistema transcribe y registra automáticamente. También puede leer en voz alta alertas o resúmenes.

Integración con otros servicios de SmallCountry¶

Servicio	Relación
Ollama	Procesa la transcripción para extraer datos estructurados
farmOS	Registro automático de observaciones de campo
Joplin Server	Notas de voz transcritas
n8n	Orquestación del flujo de voz
Node-RED	Disparadores de grabación

Servicios que lo hacen posible¶

Para el administrador (diseño previsto)

Parámetro	Valor
LXC (contenedor ligero de Proxmox)	Ejecutado en Horus (bajo demanda, GPU (procesador gráfico (usado para IA)))
IP	Horus (servidor secundario con GPU para IA)
Tier	3
Impacto	🟢 Bajo
Almacenamiento	—
Despliegue	n8n workflow gestiona el ciclo de vida
Healthcheck	Verificar que las transcripciones se completan
Logs	—
Backup	—
Problemas comunes	—

Para el arquitecto (diseño previsto)

flowchart LR
    Usuario[Usuario] --> n8nFlow[n8n]
    n8nFlow --> Whisper[Whisper]
    n8nFlow --> Piper[Piper]
    Whisper --> Ollama[Ollama]
    Ollama --> n8nFlow
    n8nFlow --> farmOS[farmOS]
    n8nFlow --> Joplin[Joplin]

Parámetro	Valor
Bridge / Red	—
Puertos	—
Pi-hole	—
Caddy	—
Authentik	—
Orquestación	Playbook: `deploy-whisper-piper.yml` · Rol: `roles/whisper-piper/` · Tofu: `modules/whisper-piper/`
Flujo	Whisper (OpenAI, local) para speech-to-text. Piper para text-to-speech. Ambos en Horus con GPU. Flujo típico: usuario graba audio → n8n recibe el archivo → Whisper transcribe → Ollama analiza y extrae datos estructurados → n8n registra en farmOS/Joplin

Secciones relacionadas¶

🌐 Enlaces de interés¶