Voz · Transcripción · Texto a voz · Audio
⚰️ Reemplazado por Hermes Agent
💡 Conceptual · 📌 v2023.11.14-2 · 2023-11-14
Whisper + Piper — Transcripción y síntesis de voz ⚰️ REEMPLAZADO¶
Este servicio ha sido reemplazado por las capacidades de voz de Hermes Agent.
Hermes integra STT local confaster-whisper(modelos tiny/base/small/large-v3, ~150MB, sin API keys)
y TTS con Edge TTS (gratis, 322 voces, 74 idiomas) o NeuTTS (local).
La voz se recibe por Telegram/Discord, se transcribe, se procesa con Ollama y se responde con síntesis de voz.
Esta ficha se conserva como referencia histórica.
Como usuario¶
Convierte audio a texto (Whisper) y texto a audio (Piper). Permitiría grabar notas de voz en el campo y que el sistema las transcriba automáticamente a texto estructurado en farmOS o Joplin.
| Funcionalidad | Navegador | Ubuntu | Android | FireTV |
|---|---|---|---|---|
| Grabación y transcripción | ❌ | ❌ | ✅ | ❌ |
- Integrado en el flujo de trabajo — sin interfaz propia. Se usa a través del asistente IA o desde la app de notas.
- Grabar notas de voz desde el móvil en el campo → el sistema transcribe y registra automáticamente. También puede leer en voz alta alertas o resúmenes.
Integración con otros servicios de SmallCountry¶
| Servicio | Relación |
|---|---|
| Ollama | Procesa la transcripción para extraer datos estructurados |
| farmOS | Registro automático de observaciones de campo |
| Joplin Server | Notas de voz transcritas |
| n8n | Orquestación del flujo de voz |
| Node-RED | Disparadores de grabación |
Servicios que lo hacen posible¶
Para el administrador (diseño previsto)
| Parámetro | Valor |
|---|---|
| LXC (contenedor ligero de Proxmox) | Ejecutado en Horus (bajo demanda, GPU (procesador gráfico (usado para IA))) |
| IP | Horus (servidor secundario con GPU para IA) |
| Tier | 3 |
| Impacto | 🟢 Bajo |
| Almacenamiento | — |
| Despliegue | n8n workflow gestiona el ciclo de vida |
| Healthcheck | Verificar que las transcripciones se completan |
| Logs | — |
| Backup | — |
| Problemas comunes | — |
Para el arquitecto (diseño previsto)
graph LR
U[Usuario] --> n[n8n]
n --> W[Whisper]
n --> P[Piper]
W --> O[Ollama]
O --> n
n --> F[farmOS]
n --> J[Joplin]
| Parámetro | Valor |
|---|---|
| Bridge / Red | — |
| Puertos | — |
| Pi-hole | — |
| Caddy | — |
| Authentik | — |
| Orquestación | Playbook: deploy-whisper-piper.yml · Rol: roles/whisper-piper/ · Tofu: modules/whisper-piper/ |
| Flujo | Whisper (OpenAI, local) para speech-to-text. Piper para text-to-speech. Ambos en Horus con GPU. Flujo típico: usuario graba audio → n8n recibe el archivo → Whisper transcribe → Ollama analiza y extrae datos estructurados → n8n registra en farmOS/Joplin |
Secciones relacionadas¶
- Guía de estilo: Clasificación de estado
- Principio 10: Asistencia supervisada
- Mecanismo 8: IA Degradable