Cuando la centralita ya funciona, entonces si: metes IA

Centralita Virtual Servicios
Mili Pérez
3 de marzo de 2026
0
4096
25 minutes read

Ahora llega la pregunta que todo el mundo quiere hacer desde el principio: ¿Y la IA? ¿Cuándo meto inteligencia artificial en el teléfono?

La respuesta corta: cuando todo lo anterior ya funciona. La IA no es el punto de partida. Es el acelerador que pones encima de una base sólida.

Este artículo no es teoría de sector ni promesas de marketing. Es lo que hemos aprendido construyendo y poniendo en producción agentes de voz con IA sobre la infraestructura de telefonía IP de netelip. Con errores reales, iteraciones reales y números reales.

EL ORDEN QUE FUNCIONA

Centralita Virtual (captura cada llamada) → Datos (grabaciones, métricas, CRM) → IA (agentes de voz que actúan sobre sistemas reales). Saltarse los dos primeros pasos es la razón por la que el 90% de los proyectos de IA en telefonía fracasan.

1. Por qué los agentes de voz con IA ya no son el futuro

Llevamos años viendo tecnologías que prometían revolucionar la atención telefónica: IVRs rígidos, chatbots de texto, asistentes con scripts que nadie aguantaba más de 20 segundos. Ninguna cumplió lo que prometía.

Los agentes de voz con IA son diferentes. No lo decimos por entusiasmo. Lo decimos porque llevamos varios en producción para distintas industrias sobre la infraestructura de netelip, y vemos los números.

La diferencia esta vez es la conversación real. No un árbol de decisiones disfrazado de IA. Una conversación que entiende lo que dice el cliente, gestiona interrupciones, recuerda lo que se ha dicho antes en la misma llamada y actúa sobre sistemas reales en tiempo real.

Lo que ha cambiado en los últimos 18 meses es la convergencia de tres cosas que antes no coexistían: modelos de lenguaje suficientemente buenos para conversación real, síntesis de voz que ya no suena a robot, y plataformas que conectan todo eso con la telefonía IP sin necesidad de un equipo de ingeniería de cinco personas.

El resultado: una empresa puede tener un agente de voz operativo en días, no en meses. Y el coste de operación por llamada ha caído tan rápido en el último año que la ecuación financiera ya no es un debate.

IMPORTANTE

Un agente de voz mal configurado, con un prompt genérico y sin integración real con los sistemas de la empresa, es peor que no tener nada. El cliente cuelga frustrado y la empresa pierde más confianza que si hubiera contestado un humano. La tecnología no perdona la implementación chapucera.

2. Cómo funciona un agente de voz por dentro

Cuando alguien habla de un agente de voz con IA, en realidad está hablando de cuatro tecnologías trabajando en secuencia, en tiempo real, con latencia medida en milisegundos. Si falla cualquiera de las capas, la conversación se rompe.

🔹 El ciclo completo de cada turno de conversación

Capa	Función	Tecnología	Detalle
STT (Speech to Text)	La voz del cliente se convierte en texto	Deepgram / nativo de la plataforma	~200ms objetivo
LLM (Modelo de lenguaje)	El texto llega al cerebro del agente	Gemini 2.0 Flash / GPT-4.1	Genera respuesta según instrucciones
Tools (Acciones)	El agente actúa sobre sistemas externos	CRM, calendario, webhooks	Durante la llamada, no después
TTS (Text to Speech)	La respuesta se convierte en voz	ElevenLabs	La voz que escucha el cliente

🔹 El stack que utilizamos sobre netelip

El stack concreto que hemos validado en producción: Retell AI como orquestador, Gemini 2.0 Flash como LLM, ElevenLabs para la voz y telefonía IP de netelip como infraestructura de llamadas. La capa de automatización la resolvemos con N8N o con código propio según la complejidad del proyecto.

¿Por qué netelip como base? Porque el agente de voz más sofisticado del mundo no sirve de nada si la llamada no llega con calidad. La telefonía IP de netelip proporciona la fiabilidad, la calidad de audio y la flexibilidad de enrutamiento que una conversación real con IA necesita. Los números virtuales de netelip se conectan directamente con plataformas como Retell AI via SIP Trunking, y la Centralita Virtual gestiona todo el flujo previo: horarios, colas, desvíos inteligentes y la decisión de cuándo entra el agente de IA y cuándo atiende un humano.

Lo del LLM merece un aparte. Llevamos meses probando Gemini 2.0 Flash y los resultados en conversación telefónica real son notablemente mejores que con otros modelos en varios aspectos: latencia más baja, mejor seguimiento del contexto dentro de la llamada y menos alucinaciones en flujos con muchas instrucciones. No es teoría. Son transcripciones reales comparadas lado a lado.

NOTA TÉCNICA

La latencia es el enemigo silencioso de los agentes de voz. Por encima de 800ms entre que el cliente termina de hablar y el agente responde, la conversación se vuelve incómoda. Por encima de 1.200ms, el cliente empieza a repetir lo que ha dicho. Mide la latencia end-to-end en tu configuración específica antes de lanzar a producción. Los números de marketing de las plataformas miden en condiciones de laboratorio.

3. Dónde funciona y dónde no

Hay un catálogo de casos de uso que todo el mundo repite: atención al cliente, reservas de citas, cualificación de leads, cobertura 24/7. Todo correcto. Pero lo que importa es en qué sectores el ROI aparece rápido y en cuáles el agente necesita más trabajo para ser útil en producción.

Sector	Caso de uso principal	Categoría
Inmobiliario y PropTech	Cualificación de leads entrantes, gestión de visitas, seguimiento de interesados. Alto volumen de llamadas con consultas repetitivas.	ROI rápido
Clínicas dentales y estética	Gestión de citas, confirmaciones, recordatorios. Las clínicas pierden entre un 15% y un 25% de llamadas entrantes porque la recepcionista está con otro paciente.	ROI rápido
Agencias de viaje y hostelería	Consultas de disponibilidad, reservas, gestión de cambios. Especialmente valioso en cobertura nocturna y fines de semana.	Alto volumen
VTC y taxi	Reservas, confirmaciones, seguimiento de servicio. El cliente quiere respuesta inmediata.	Inmediatez crítica
Asesorías y despachos	Gestión de primera consulta, recogida de información inicial, agenda con el asesor. El agente hace la clasificación que libera tiempo del profesional.	Cualificación
Administración de fincas	Incidencias, consultas, seguimiento de avisos. Funciona bien para el primer contacto. Necesita integración robusta con el software de gestión.	Integración clave

DÓNDE NO FUNCIONA TODAVÍA

Conversaciones que requieren juicio complejo, negociación de precios fuera de rangos predefinidos, gestión de clientes muy enfadados en situaciones delicadas, o procesos donde la decisión humana sea legalmente obligatoria. Un agente de voz mal usado en estos casos daña más de lo que ayuda. La clave es saber cuándo transferir al humano, y que esa transferencia sea limpia. Aquí es donde la Centralita Virtual de netelip es crítica: gestiona la transferencia con contexto para que el cliente no tenga que repetir todo desde el principio.

4. El proceso de construcción real: del prompt vacío a producción

Todos los demos de agentes de voz son perfectos. El agente responde exactamente lo que debería, el cliente dice exactamente lo que se espera, y la llamada acaba en 90 segundos con el objetivo cumplido.

La producción no funciona así.

En la primera versión de Elio, nuestro agente de voz, el 45% de las respuestas contenían algún tipo de alucinación: información inventada, referencias a datos que no existían, confirmaciones de acciones que el agente no había ejecutado realmente. Inaceptable para una llamada real con un cliente real.

Llegar a 0 alucinaciones en producción no fue cuestión de cambiar el modelo. Fue cuestión de entender por qué fallaba y atacar cada causa de forma sistemática: prompt mal estructurado, integraciones que devolvían datos inconsistentes, flujos sin manejo de excepciones. Cada fallo analizado en transcripciones reales.

🔹 Las 5 fases que seguimos en cada agente

Fase	En qué consiste
Fase 1: Descubrimiento	Definir exactamente qué hace el agente, qué no hace, y dónde transfiere al humano. Qué información tiene de antemano, qué tiene que recoger, y en qué orden. Sin esta claridad, el prompt fallará.
Fase 2: El prompt	Rol claro, personalidad definida, instrucciones de comportamiento específicas, fases de la conversación explícitas, manejo de excepciones documentado. Un prompt para voz tiene reglas que no aplican al chat: una pregunta por turno, cómo leer números y emails en voz alta, cómo gestionar la latencia.
Fase 3: Las integraciones	Un agente que solo habla es un contestador automático caro. Las integraciones son lo que lo convierte en útil: agenda durante la llamada, dispara un webhook para crear un registro en CRM, transfiere con contexto cuando el humano tiene que coger el hilo. La capa de automatización la resolvemos con N8N o con código propio.
Fase 4: Testing con transcripciones	La única forma de saber si funciona es leer las transcripciones. No las llamadas perfectas. Las que fallan. Los errores de STT, las interrupciones, las preguntas fuera de guion. Lo que parece funcionar en un test controlado se rompe con el primer cliente real.
Fase 5: Producción y monitorización	Necesitas métricas: tasa de llamadas completadas sin transferencia, tasa de alucinaciones, duración media, puntos de abandono. Sin datos, no puedes mejorar lo que no ves. Y aquí conecta con todo lo que hemos hablado en esta serie: las métricas de la Centralita Virtual alimentan la mejora continua del agente.

EL ERROR MÁS FRECUENTE

Intentar meter demasiado en un solo agente. Un agente que cualifica leads, gestiona incidencias, hace seguimiento post-venta y responde FAQs técnicas es un agente que no hace nada bien. Empieza con un caso de uso concreto, un flujo claro y unas métricas de éxito definidas. Cuando ese flujo funcione en producción, piensa en el siguiente.

5. Las integraciones que marcan la diferencia

Hay dos tipos de agentes de voz en producción: los que hablan y los que actúan. El salto de valor real ocurre cuando el agente actúa sobre sistemas reales durante la llamada.

🔹 Integraciones clave que hemos implementado

Agendado en tiempo real (Cal.com, Google Calendar). El cliente dice que quiere una cita, el agente consulta disponibilidad y agenda durante la llamada. El cliente cuelga con la cita confirmada, no con la promesa de que alguien le llamará. Esa diferencia en la experiencia del cliente es enorme.

Automatización post-llamada (N8N o código propio). Cuando la llamada termina, hay que procesar los datos recogidos: crear el registro en CRM, enviar el SMS de confirmación al cliente, notificar al equipo si hay algo que gestionar. Usamos N8N cuando hay que moverse rápido, y código propio cuando el proyecto necesita control total.

Transferencia con contexto vía Centralita Virtual. Cuando el agente transfiere al humano, el humano recibe un resumen: nombre del cliente, motivo de la llamada, información recogida. Sin ese contexto, el cliente tiene que repetir todo. La Centralita Virtual de netelip gestiona esta transferencia de forma limpia, enrutando la llamada al agente humano correcto con toda la información disponible.

Base de conocimiento dinámica. El agente consulta información actualizada: horarios, precios, disponibilidad, FAQs. Sin esto, cualquier cambio en la empresa requiere actualizar el prompt manualmente.

SOBRE LAS INTEGRACIONES

Las integraciones son el 20% del trabajo y el 80% del tiempo. Conectar el agente a un calendario parece sencillo hasta que te encuentras con horarios con excepciones, franjas bloqueadas por otra razón, o APIs que no responden en tiempo real. Planifica el tiempo de integración multiplicando tu estimación inicial por tres. No es pesimismo, es experiencia.

6. Costes reales y lo que debes saber antes de empezar

El mayor problema que vemos cuando alguien llega con "quiero montar un agente de voz" es que no ha hecho las preguntas correctas. Estas preguntas afectan directamente a cuánto va a costar, cuánto va a tardar y si va a funcionar en producción.

🔹 Componentes de coste

Componente	Coste aproximado	Lo que debes saber
Plataforma orquestadora (Retell AI)	Desde ~0,05 EUR/min de llamada	El precio varía por volumen y modelo LLM elegido. Calcula bien tu volumen mensual.
LLM (Gemini, GPT-4.1)	Por tokens consumidos	Una llamada de 3 min puede consumir entre 2.000 y 8.000 tokens. El coste ha bajado significativamente.
Síntesis de voz (ElevenLabs)	Por caracteres generados	No escatimes aquí. Una voz robótica rompe la experiencia aunque el agente sea perfecto.
Telefonía IP (netelip)	Desde 1,95 EUR/mes por número + plan de llamadas	Números virtuales, SIP Trunking, Centralita Virtual. La base sobre la que funciona todo.
Tiempo de implementación	2 semanas mínimo	Agente simple con flujo básico. Con integraciones complejas: 4-8 semanas.
Mantenimiento	Continuo	Analizar transcripciones, ajustar prompt, mantener integraciones. Planifica tiempo de operación.

🔹 Las preguntas que tienes que hacerte antes de empezar

1. ¿Cuál es el caso de uso concreto? No "atención al cliente" genérico. ¿Qué tipo de llamadas? ¿Qué información recoge el agente? ¿Qué acción ejecuta? Sin esto, no puedes dimensionar ni presupuestar.

2. ¿Qué sistemas necesita tocar el agente? CRM, agenda, sistema de gestión, base de datos. Cada integración tiene coste de tiempo. Y algunas APIs no están preparadas para consumirse en tiempo real.

3. ¿Cuál es tu volumen de llamadas mensual? El modelo de costes cambia completamente según el volumen. Lo que es caro a 200 llamadas/mes es barato a 2.000.

4. ¿Quién va a mantenerlo? Un agente sin mantenimiento se degrada. Las transcripciones hay que analizarlas. El prompt hay que ajustarlo. Necesitas a alguien responsable de la operación continua, no solo del lanzamiento.

5. ¿Qué pasa cuando el agente no sabe qué decir? La política de transferencia al humano es tan importante como el flujo principal. Si el agente se queda bloqueado y no hay salida limpia, el cliente cuelga enfadado. La Centralita Virtual de netelip gestiona estas transferencias con la fiabilidad que necesitas.

7. El papel de netelip: la infraestructura que hace posible la IA en el teléfono

Un agente de voz con IA es tan bueno como la infraestructura sobre la que funciona. Puedes tener el mejor modelo de lenguaje, la mejor voz sintética y el prompt más refinado del mundo. Pero si la llamada no llega con calidad, si el enrutamiento falla o si no hay un sistema que gestione el flujo completo, nada de eso importa.

Números virtuales conectados directamente con plataformas de IA. Los números de netelip se integran con Retell AI, ElevenLabs y otras plataformas via SIP Trunking. El agente de voz recibe las llamadas con la calidad de audio que una conversación real necesita.

Centralita Virtual como capa de decisión. La Centralita Virtual no desaparece cuando llega la IA. Al contrario: es la que decide cuándo entra el agente de IA, cuándo atiende un humano, cómo se gestionan los horarios y qué pasa cuando el agente necesita transferir. Es el director de orquesta.

Grabaciones y transcripciones para mejorar el agente. Las grabaciones de la Centralita Virtual alimentan el ciclo de mejora continua del agente. Cada llamada es una oportunidad para detectar fallos, ajustar el prompt y mejorar las integraciones. Sin estos datos, estás ciego.

Escalabilidad sin cambiar de proveedor. Empiezas con una Centralita Virtual básica. Cuando estás listo, añades el agente de voz. Si necesitas números en otros países, los contratas desde el mismo panel. Todo crece sobre la misma infraestructura.

FÁBRICA DE AGENTES IA DE NETELIP

En netelip estamos construyendo la Fábrica de Agentes IA: agentes de voz personalizados para cada sector, integrados nativamente con nuestra infraestructura de telefonía IP. Desde la cualificación de leads hasta la gestión de citas, pasando por la atención fuera de horario. Todo sobre la base sólida que llevamos más de 20 años construyendo.

Conclusión: el orden correcto lo cambia todo

Si has seguido esta serie completa, el mensaje es claro:

Centralita Virtual para capturar cada llamada y tener un sistema profesional. Grabaciones y métricas para saber qué está pasando de verdad. Integración con CRM para que cada llamada tenga contexto. Y solo entonces, IA para automatizar lo que tiene sentido automatizar.

El orden inverso (IA primero, base después) es la receta para tirar dinero y frustrar a tus clientes. Lo hemos visto demasiadas veces.

La buena noticia: si ya tienes la Centralita Virtual de netelip funcionando, ya tienes la base. El siguiente paso es más corto de lo que crees.

¿LISTO PARA DAR EL SIGUIENTE PASO?

Si ya tienes tu Centralita Virtual funcionando y quieres explorar cómo añadir un agente de voz con IA a tu sistema, hablamos. Sin compromiso. Te decimos si tu caso encaja y cómo sería el proceso.

🚀 ¿Listo para dar el siguiente paso?

Si ya tienes tu Centralita Virtual funcionando y quieres explorar cómo añadir un agente de voz con IA a tu sistema, hablamos. Sin compromiso. Te decimos si tu caso encaja y cómo sería el proceso.

¡Contáctanos! Estamos disponibles para charlar cuando quieras.

¿Te gusta el contenido? Compártelo.

Cuando la centralita ya funciona, entonces si: metes IA

1. Por qué los agentes de voz con IA ya no son el futuro

2. Cómo funciona un agente de voz por dentro

🔹 El ciclo completo de cada turno de conversación

🔹 El stack que utilizamos sobre netelip

3. Dónde funciona y dónde no

4. El proceso de construcción real: del prompt vacío a producción

🔹 Las 5 fases que seguimos en cada agente

5. Las integraciones que marcan la diferencia

🔹 Integraciones clave que hemos implementado

6. Costes reales y lo que debes saber antes de empezar

🔹 Componentes de coste

🔹 Las preguntas que tienes que hacerte antes de empezar

7. El papel de netelip: la infraestructura que hace posible la IA en el teléfono

Conclusión: el orden correcto lo cambia todo

🚀 ¿Listo para dar el siguiente paso?

Tecnología que se atreve a ser humana: por qué hemos escrito nuestro manifiesto

¿Sigues llamando a tus clientes desde tu móvil personal? Esto es lo que estás perdiendo

Por qué la mayoría de proyectos de agentes de voz se atascan justo antes de lanzar

7 señales de que tu sistema telefónico se ha quedado pequeño (y cómo reconocerlas antes de que cuesten ventas)

Mili Pérez

Deja un comentario Cancel reply

Entradas recientes