Saltar a contenido
Whisper + Piper

Voz · Transcripción · Texto a voz · Audio

⚰️ Reemplazado por Hermes Agent

💡 Conceptual · 📌 v2023.11.14-2 · 2023-11-14

Whisper + Piper — Transcripción y síntesis de voz ⚰️ REEMPLAZADO

Este servicio ha sido reemplazado por las capacidades de voz de Hermes Agent.
Hermes integra STT local con faster-whisper (modelos tiny/base/small/large-v3, ~150MB, sin API keys)
y TTS con Edge TTS (gratis, 322 voces, 74 idiomas) o NeuTTS (local).
La voz se recibe por Telegram/Discord, se transcribe, se procesa con Ollama y se responde con síntesis de voz.
Esta ficha se conserva como referencia histórica.

Como usuario

Convierte audio a texto (Whisper) y texto a audio (Piper). Permitiría grabar notas de voz en el campo y que el sistema las transcriba automáticamente a texto estructurado en farmOS o Joplin.

Funcionalidad Navegador Ubuntu Android FireTV
Grabación y transcripción
  • Integrado en el flujo de trabajo — sin interfaz propia. Se usa a través del asistente IA o desde la app de notas.
  • Grabar notas de voz desde el móvil en el campo → el sistema transcribe y registra automáticamente. También puede leer en voz alta alertas o resúmenes.

Integración con otros servicios de SmallCountry

Servicio Relación
Ollama Procesa la transcripción para extraer datos estructurados
farmOS Registro automático de observaciones de campo
Joplin Server Notas de voz transcritas
n8n Orquestación del flujo de voz
Node-RED Disparadores de grabación

Servicios que lo hacen posible

Para el administrador (diseño previsto)
Parámetro Valor
LXC (contenedor ligero de Proxmox) Ejecutado en Horus (bajo demanda, GPU (procesador gráfico (usado para IA)))
IP Horus (servidor secundario con GPU para IA)
Tier 3
Impacto 🟢 Bajo
Almacenamiento
Despliegue n8n workflow gestiona el ciclo de vida
Healthcheck Verificar que las transcripciones se completan
Logs
Backup
Problemas comunes
Para el arquitecto (diseño previsto)
graph LR
    U[Usuario] --> n[n8n]
    n --> W[Whisper]
    n --> P[Piper]
    W --> O[Ollama]
    O --> n
    n --> F[farmOS]
    n --> J[Joplin]
Parámetro Valor
Bridge / Red
Puertos
Pi-hole
Caddy
Authentik
Orquestación Playbook: deploy-whisper-piper.yml · Rol: roles/whisper-piper/ · Tofu: modules/whisper-piper/
Flujo Whisper (OpenAI, local) para speech-to-text. Piper para text-to-speech. Ambos en Horus con GPU. Flujo típico: usuario graba audio → n8n recibe el archivo → Whisper transcribe → Ollama analiza y extrae datos estructurados → n8n registra en farmOS/Joplin

Secciones relacionadas

🌐 Enlaces de interés