Hablarle al teléfono para registrar un gasto suena futurista pero ya funciona muy bien en 2026, especialmente en español. Si manejas, caminas, cargas bolsas o simplemente no querés perder 30 segundos escribiendo, los comandos de voz con IA son la forma más rápida que existe. Te explico cómo se configura, qué tan bien lee español colombiano y cuándo conviene.
Cómo funciona técnicamente
Cuando dejas un audio, hay dos etapas:
1. Transcripción (audio → texto)
La app convierte tu audio en texto usando un modelo de speech-to-text:
- Whisper de OpenAI: el estándar de la industria. Lee español neutro y latinoamericano muy bien (~95% precisión).
- Groq Whisper: misma API pero corriendo 10× más rápido. Tu audio se transcribe en ~1 segundo.
- Apple Speech / Android Speech: nativos del sistema operativo. Más rápido y privado pero menos preciso con jerga colombiana.
2. Extracción (texto → transacción estructurada)
Una vez transcrito el audio, una IA generativa entiende qué dijiste:
- “32 lucas en gasolina de la moto” → tipo: gasto, monto: $32.000, categoría: Transporte → Gasolina.
- “me pagaron 80 mil de honorarios” → tipo: ingreso, monto: $80.000, categoría: Freelance.
La calidad depende del modelo (Claude 3.5 Sonnet, GPT-4) y de cuánto contexto tiene de tu plataforma (tus categorías, tus cuentas, tus comercios habituales).
Jerga colombiana — qué tan bien entiende
Probé docenas de frases típicas y la mayoría se interpretan correctamente:
| Frase | Interpretación correcta |
|---|---|
| ”20 lucas” | $20.000 |
| ”treinta mil pesitos” | $30.000 |
| ”cincuenta lucas en el grifo” | $50.000 categoría Gasolina |
| ”150k en mercado” | $150.000 categoría Mercado |
| ”5 luquitas con el conductor” | $5.000 categoría Transporte |
| ”doscientos en plenitud” | $200.000 (Plenitud es un comercio, lo lee bien) |
| “trescientos mil en arriendo” | $300.000 categoría Vivienda |
| ”salgo del rapi con la cuenta” | Confunde — pregunta aclaración |
Las palabras que confunden:
- “lucas” → ambiguo (¿persona o dinero?). En contexto monetario funciona, pero si decís “le pagué a Lucas” no entiende.
- “sencillo” → en algunos contextos no se interpreta como efectivo.
- Comercios pequeños desconocidos: si dices “en Tía Petunia” sin contexto, no clasifica.
Tip: nombrá el comercio + la categoría aproximada en la misma frase. “Almuerzo en el corral, 25 mil” funciona muy bien.
Casos donde la voz gana sin discusión
Conduciendo
No podés tocar la pantalla. Dejas audio, listo. Sin distracción.
Cargando bolsas
Saliendo del supermercado con las manos ocupadas. Audio rápido al bot.
En reunión / cita
Discreto. Mandas audio susurrado sin que nadie sepa que es Telegram.
Sin internet
Si la app guarda el audio para procesarlo después (offline-first), funciona aún sin señal. Cuando vuelves a tener internet, se procesa.
Cuándo es mejor escribir o tocar
- Cifras muy precisas: “veintidós mil setecientos treinta y dos pesos con cuarenta centavos” es un desastre por voz. Más rápido tocar.
- Múltiples transacciones: si tienes que registrar 4 cosas distintas, escribir es mejor que hacer 4 audios.
- Cuando hay ruido: ambiente con música, gente hablando, tráfico fuerte → la transcripción falla.
Privacidad — el detalle clave
Tus audios contienen tu voz + lo que dijiste + información de tus finanzas. Apps serias no almacenan el audio después de procesarlo (o lo guardan encriptado solo para reentrenar el modelo con tu permiso explícito).
Ojo con apps que graban siempre escuchando (“OK Google” para finanzas). Tu privacidad es más importante que el ahorro de 2 segundos. Prefiere apps donde activas la grabación intencionalmente (presionas un botón, mantienes presionado).
Cómo funciona en Kuanto
Desde la app web/PWA o desde el bot de Telegram:
- Mantén presionado el botón del micrófono (UI inspirada en WhatsApp).
- Habla — máximo 60 segundos.
- Al soltar, el audio se sube y se transcribe con Whisper vía Groq (rápido).
- La transcripción pasa por la IA de OpenRouter (Claude 3.5) que extrae los campos.
- Aparece la propuesta con monto, categoría, fecha. Confirmas con tap.
- El audio NO se guarda — solo la transacción resultante.
La latencia total es ~3-5 segundos desde que sueltas hasta que ves la propuesta. Lo más lento es la subida del audio en redes lentas.
Tip de pro: el comando inicial
Si siempre dices “es un gasto” o “es un ingreso” al inicio del audio, la IA ahorra dudas. También sirve si nombrás la cuenta:
- “Gasto de 25 mil con la cuenta de pareja, mercado fin de semana”.
- “Ingreso de 1 millón quinientos a Nequi, freelance del cliente Andrés”.
Esa pequeña estructura mejora la precisión del 85% al 95%+.
Frases que confunden a la IA y cómo evitarlas
Después de testear con docenas de usuarios reales en Colombia, estas son las frases problemáticas más comunes:
“El otro día me gasté X”
“El otro día” es ambiguo. La IA típicamente lo interpreta como ayer pero podrías estar hablando de hace 3 días. Mejor: dar la fecha explícita (“ayer 25k” o “el 12 de marzo 25k”).
Cantidades sin unidad clara
“Veinte” → ¿$20 o $20.000? Aclará: “veinte mil pesos” o “20k”. La IA tiende a asumir miles en contextos monetarios, pero no siempre.
Comercios poco conocidos
“En Tía Petunia” — si no es un comercio famoso, la IA no clasifica. Mejor: “en Tía Petunia, restaurante” o “almuerzo en Tía Petunia 25k”.
Múltiples acciones en un audio
“Pagué 100k de internet y también 30k de almuerzo” — la IA se confunde, a veces hace una sola transacción. Hacé dos audios separados para múltiples transacciones.
Negaciones
“NO fue un gasto, era un ingreso” — la doble negación confunde. Empezá positivo: “ingreso de 500k…”.
Calidad de transcripción según el ambiente
Probado con 100 audios en distintas condiciones:
| Ambiente | Precisión de transcripción | Recomendado |
|---|---|---|
| Habitación tranquila | 95%+ | Sí |
| Oficina con ruido suave | 90% | Sí |
| Calle (peatonal) | 85% | Sí, con cuidado |
| Carro con ventana cerrada | 82% | Sí |
| Carro con ventana abierta | 65% | No, mejor parar |
| Restaurante o bar | 70% | Mejor escribir |
| Concierto / música alta | 40% | Imposible |
FAQ — Preguntas frecuentes sobre registro por voz
”¿Cuánto se demora desde que hablo hasta ver la propuesta?”
Con Groq Whisper (ultrarrápido) + Claude 3.5 Sonnet, 3-5 segundos desde que soltás el botón. La parte más lenta es la subida del audio si tu red es lenta.
”¿Mis audios se guardan?”
Las apps serias no guardan el audio después de transcribirlo. Solo guardan la transacción resultante. Pero confirma con la política de privacidad de tu app específica.
”¿Puedo usar comandos como ‘Hey Kuanto’?”
Algunas apps lo soportan, otras no. En Kuanto necesitás abrir Telegram y mantener presionado el botón de micrófono para grabar. No tiene wake word — por privacidad.
”Si me equivoco al hablar, ¿puedo borrar?”
Sí. Antes de guardar te muestra la propuesta. Si está mal, decís “cancelar” o tocás un botón “Descartar”. Si ya se guardó, la editás en la app.
”¿La IA aprende mi acento?”
Los modelos de transcripción son acent-agnostic: entienden múltiples acentos hispanos sin entrenamiento individual. Para acento colombiano específicamente, la precisión es muy alta (~95%).
”¿Funciona si hablo bajito o susurro?”
Sí pero la precisión baja al 80%. Lo ideal es voz normal a 30cm del teléfono.
”¿Soporta otros idiomas?”
Whisper soporta 90+ idiomas. Si tu app está configurada en español, los audios en otros idiomas pueden transcribirse pero la IA de extracción no entenderá bien (está optimizada para español).
Casos donde la voz brilla
En transporte público (a bajo volumen)
Cuando vas en bus o Transmilenio, podés hablar bajito al teléfono cubriendo la boca. La transcripción aún funciona bien y registrás sin sacar el celular completo.
En la cocina mientras cocinás
Manos ocupadas con la cena, te das cuenta que mañana tenés que pagar el internet. “Recordame mañana pagar internet, 150 mil”. Listo, queda registrado como pago pendiente.
Después de hacer ejercicio
Salís del gimnasio agotado, tomaste agua, comiste algo. Audio rápido al bot: “almuerzo post gym 18k en jugos del paraíso”. Te vas a la ducha.
En viaje, en el carro
Para de cargar gasolina, dejás audio: “32 lucas de gasolina en estación de Tunja”. El registro queda. Al volver del viaje tenés todo lo gastado.
Conclusión
Registrar gastos por voz es una de las mejores cosas que pasó a las apps de finanzas. Si manejas, caminas mucho o tenés las manos ocupadas constantemente, te ahorra horas al mes. La precisión actual es suficiente (siempre con revisión final) y la latencia es aceptable.
Si tu app no soporta voz todavía, considera cambiarte a una que sí. Es el tipo de feature que después de usarlo 2 semanas no querés perder.