Registrar gastos por voz — la forma más rápida en 2026

Persona registrando gasto por voz hablando al micrófono del teléfono mientras camina
Imagen de Pexels

Hablarle al teléfono para registrar un gasto suena futurista pero ya funciona muy bien en 2026, especialmente en español. Si manejas, caminas, cargas bolsas o simplemente no querés perder 30 segundos escribiendo, los comandos de voz con IA son la forma más rápida que existe. Te explico cómo se configura, qué tan bien lee español colombiano y cuándo conviene.

Cómo funciona técnicamente

Cuando dejas un audio, hay dos etapas:

1. Transcripción (audio → texto)

La app convierte tu audio en texto usando un modelo de speech-to-text:

  • Whisper de OpenAI: el estándar de la industria. Lee español neutro y latinoamericano muy bien (~95% precisión).
  • Groq Whisper: misma API pero corriendo 10× más rápido. Tu audio se transcribe en ~1 segundo.
  • Apple Speech / Android Speech: nativos del sistema operativo. Más rápido y privado pero menos preciso con jerga colombiana.

2. Extracción (texto → transacción estructurada)

Una vez transcrito el audio, una IA generativa entiende qué dijiste:

  • “32 lucas en gasolina de la moto” → tipo: gasto, monto: $32.000, categoría: Transporte → Gasolina.
  • “me pagaron 80 mil de honorarios” → tipo: ingreso, monto: $80.000, categoría: Freelance.

La calidad depende del modelo (Claude 3.5 Sonnet, GPT-4) y de cuánto contexto tiene de tu plataforma (tus categorías, tus cuentas, tus comercios habituales).

Jerga colombiana — qué tan bien entiende

Probé docenas de frases típicas y la mayoría se interpretan correctamente:

FraseInterpretación correcta
”20 lucas”$20.000
”treinta mil pesitos”$30.000
”cincuenta lucas en el grifo”$50.000 categoría Gasolina
”150k en mercado”$150.000 categoría Mercado
”5 luquitas con el conductor”$5.000 categoría Transporte
”doscientos en plenitud”$200.000 (Plenitud es un comercio, lo lee bien)
“trescientos mil en arriendo”$300.000 categoría Vivienda
”salgo del rapi con la cuenta”Confunde — pregunta aclaración

Las palabras que confunden:

  • “lucas” → ambiguo (¿persona o dinero?). En contexto monetario funciona, pero si decís “le pagué a Lucas” no entiende.
  • “sencillo” → en algunos contextos no se interpreta como efectivo.
  • Comercios pequeños desconocidos: si dices “en Tía Petunia” sin contexto, no clasifica.

Tip: nombrá el comercio + la categoría aproximada en la misma frase. “Almuerzo en el corral, 25 mil” funciona muy bien.

Casos donde la voz gana sin discusión

Conduciendo

No podés tocar la pantalla. Dejas audio, listo. Sin distracción.

Cargando bolsas

Saliendo del supermercado con las manos ocupadas. Audio rápido al bot.

En reunión / cita

Discreto. Mandas audio susurrado sin que nadie sepa que es Telegram.

Sin internet

Si la app guarda el audio para procesarlo después (offline-first), funciona aún sin señal. Cuando vuelves a tener internet, se procesa.

Cuándo es mejor escribir o tocar

  • Cifras muy precisas: “veintidós mil setecientos treinta y dos pesos con cuarenta centavos” es un desastre por voz. Más rápido tocar.
  • Múltiples transacciones: si tienes que registrar 4 cosas distintas, escribir es mejor que hacer 4 audios.
  • Cuando hay ruido: ambiente con música, gente hablando, tráfico fuerte → la transcripción falla.

Privacidad — el detalle clave

Tus audios contienen tu voz + lo que dijiste + información de tus finanzas. Apps serias no almacenan el audio después de procesarlo (o lo guardan encriptado solo para reentrenar el modelo con tu permiso explícito).

Ojo con apps que graban siempre escuchando (“OK Google” para finanzas). Tu privacidad es más importante que el ahorro de 2 segundos. Prefiere apps donde activas la grabación intencionalmente (presionas un botón, mantienes presionado).

Cómo funciona en Kuanto

Desde la app web/PWA o desde el bot de Telegram:

  1. Mantén presionado el botón del micrófono (UI inspirada en WhatsApp).
  2. Habla — máximo 60 segundos.
  3. Al soltar, el audio se sube y se transcribe con Whisper vía Groq (rápido).
  4. La transcripción pasa por la IA de OpenRouter (Claude 3.5) que extrae los campos.
  5. Aparece la propuesta con monto, categoría, fecha. Confirmas con tap.
  6. El audio NO se guarda — solo la transacción resultante.

La latencia total es ~3-5 segundos desde que sueltas hasta que ves la propuesta. Lo más lento es la subida del audio en redes lentas.

Tip de pro: el comando inicial

Si siempre dices “es un gasto” o “es un ingreso” al inicio del audio, la IA ahorra dudas. También sirve si nombrás la cuenta:

  • “Gasto de 25 mil con la cuenta de pareja, mercado fin de semana”.
  • “Ingreso de 1 millón quinientos a Nequi, freelance del cliente Andrés”.

Esa pequeña estructura mejora la precisión del 85% al 95%+.

Frases que confunden a la IA y cómo evitarlas

Después de testear con docenas de usuarios reales en Colombia, estas son las frases problemáticas más comunes:

“El otro día me gasté X”

“El otro día” es ambiguo. La IA típicamente lo interpreta como ayer pero podrías estar hablando de hace 3 días. Mejor: dar la fecha explícita (“ayer 25k” o “el 12 de marzo 25k”).

Cantidades sin unidad clara

“Veinte” → ¿$20 o $20.000? Aclará: “veinte mil pesos” o “20k”. La IA tiende a asumir miles en contextos monetarios, pero no siempre.

Comercios poco conocidos

“En Tía Petunia” — si no es un comercio famoso, la IA no clasifica. Mejor: “en Tía Petunia, restaurante” o “almuerzo en Tía Petunia 25k”.

Múltiples acciones en un audio

“Pagué 100k de internet y también 30k de almuerzo” — la IA se confunde, a veces hace una sola transacción. Hacé dos audios separados para múltiples transacciones.

Negaciones

“NO fue un gasto, era un ingreso” — la doble negación confunde. Empezá positivo: “ingreso de 500k…”.

Calidad de transcripción según el ambiente

Probado con 100 audios en distintas condiciones:

AmbientePrecisión de transcripciónRecomendado
Habitación tranquila95%+
Oficina con ruido suave90%
Calle (peatonal)85%Sí, con cuidado
Carro con ventana cerrada82%
Carro con ventana abierta65%No, mejor parar
Restaurante o bar70%Mejor escribir
Concierto / música alta40%Imposible

FAQ — Preguntas frecuentes sobre registro por voz

”¿Cuánto se demora desde que hablo hasta ver la propuesta?”

Con Groq Whisper (ultrarrápido) + Claude 3.5 Sonnet, 3-5 segundos desde que soltás el botón. La parte más lenta es la subida del audio si tu red es lenta.

”¿Mis audios se guardan?”

Las apps serias no guardan el audio después de transcribirlo. Solo guardan la transacción resultante. Pero confirma con la política de privacidad de tu app específica.

”¿Puedo usar comandos como ‘Hey Kuanto’?”

Algunas apps lo soportan, otras no. En Kuanto necesitás abrir Telegram y mantener presionado el botón de micrófono para grabar. No tiene wake word — por privacidad.

”Si me equivoco al hablar, ¿puedo borrar?”

Sí. Antes de guardar te muestra la propuesta. Si está mal, decís “cancelar” o tocás un botón “Descartar”. Si ya se guardó, la editás en la app.

”¿La IA aprende mi acento?”

Los modelos de transcripción son acent-agnostic: entienden múltiples acentos hispanos sin entrenamiento individual. Para acento colombiano específicamente, la precisión es muy alta (~95%).

”¿Funciona si hablo bajito o susurro?”

Sí pero la precisión baja al 80%. Lo ideal es voz normal a 30cm del teléfono.

”¿Soporta otros idiomas?”

Whisper soporta 90+ idiomas. Si tu app está configurada en español, los audios en otros idiomas pueden transcribirse pero la IA de extracción no entenderá bien (está optimizada para español).

Casos donde la voz brilla

En transporte público (a bajo volumen)

Cuando vas en bus o Transmilenio, podés hablar bajito al teléfono cubriendo la boca. La transcripción aún funciona bien y registrás sin sacar el celular completo.

En la cocina mientras cocinás

Manos ocupadas con la cena, te das cuenta que mañana tenés que pagar el internet. “Recordame mañana pagar internet, 150 mil”. Listo, queda registrado como pago pendiente.

Después de hacer ejercicio

Salís del gimnasio agotado, tomaste agua, comiste algo. Audio rápido al bot: “almuerzo post gym 18k en jugos del paraíso”. Te vas a la ducha.

En viaje, en el carro

Para de cargar gasolina, dejás audio: “32 lucas de gasolina en estación de Tunja”. El registro queda. Al volver del viaje tenés todo lo gastado.

Conclusión

Registrar gastos por voz es una de las mejores cosas que pasó a las apps de finanzas. Si manejas, caminas mucho o tenés las manos ocupadas constantemente, te ahorra horas al mes. La precisión actual es suficiente (siempre con revisión final) y la latencia es aceptable.

Si tu app no soporta voz todavía, considera cambiarte a una que sí. Es el tipo de feature que después de usarlo 2 semanas no querés perder.