Centro de ayuda
ayuda@netelip.com

Campañas outbound con IA

Campañas outbound con IA

Agentes de voz con IA y llamadas salientes: cómo funciona la infraestructura telefónica

Antes de lanzar una campaña outbound con agentes de voz, conviene entender cómo funciona la red telefónica real y por qué tiene límites que la IA, por sí sola, no puede ignorar. Este artículo explica esos límites, cómo calcular lo que necesitas y cómo escalar una campaña de forma estable.

1. El error más común al arrancar con agentes de voz

Cuando alguien habla de agentes de voz con inteligencia artificial, la conversación suele terminar en el mismo punto: “mi sistema puede hacer miles de llamadas simultáneas”. Es una afirmación técnicamente posible desde el punto de vista de la IA, y completamente incorrecta desde el punto de vista de la telefonía.

Plataformas como Retell o ElevenLabs están diseñadas para escalar en la nube. Cada llamada es un stream de audio, el modelo de lenguaje procesa texto, y en teoría el sistema podría gestionar cientos de sesiones WebRTC de forma simultánea. El problema es que una sesión WebRTC no es lo mismo que una llamada telefónica real.

Cuando una llamada tiene que llegar a un número de teléfono real, entran en juego elementos con límites físicos y regulatorios: SIP trunks, gateways PSTN, operadores intermedios y sistemas antifraude de carriers. Cuando ese límite se supera, las consecuencias son inmediatas: llamadas que no se completan, rutas bloqueadas, errores SIP 403 o 503 y, en casos graves, el número de origen marcado como sospechoso por los operadores.

Evitar el colapso en telefonía IP - netelip

2. Los tres límites reales de la telefonía

Para entender por qué la telefonía impone restricciones que la IA por sí sola no tiene, hay que conocer tres conceptos fundamentales.

2.1. El SIP trunk es el canal que conecta la infraestructura de voz IP con la red telefónica pública (PSTN). Es el punto de entrada y salida de todas las llamadas. No es infinito: tiene una capacidad máxima de llamadas simultáneas definida en el momento de la contratación, y está sujeto a las políticas del operador que lo proporciona.

2.2. Los canales (concurrencia real)

Los canales salientes determinan cuántas llamadas pueden estar activas al mismo tiempo. Esta es la definición real de concurrencia en telefonía, y es un número concreto, no una abstracción:

  • 30 canales → hasta 30 llamadas simultáneas activas.
  • 60 canales → hasta 60 llamadas simultáneas activas.
  • 120 canales → hasta 120 llamadas simultáneas activas.

Cuando un sistema de IA intenta abrir más llamadas de las que permiten los canales disponibles, las llamadas adicionales se rechazan o quedan en espera. El límite es duro: no hay degradación gradual.

2.3. El CPS (Calls Per Second)

El CPS es la velocidad a la que se pueden iniciar llamadas nuevas, medida en llamadas por segundo. Es el segundo gran limitador, independiente del número de canales disponibles. Un sistema puede tener 100 canales disponibles y aun así no poder lanzar 100 llamadas de golpe si el CPS configurado es 5.

Tipo de campaña El CPS (Calls Per Second) - netelip

3. Cómo calcular cuántos canales necesita tu campaña

Antes de lanzar cualquier campaña outbound, hay que calcular la concurrencia esperada. Hay dos métodos: el cálculo Erlang (el estándar en ingeniería de tráfico) y la regla rápida (suficiente para dimensionamiento previo).

3.1. El tráfico Erlang

El Erlang es la unidad estándar en telecomunicaciones para medir el volumen de tráfico. Un Erlang equivale a un canal ocupado continuamente durante una hora. La fórmula base es:

  • Tráfico (Erlang) = llamadas por hora × duración media de llamada (en horas)
  • Ejemplo: 22,5 llamadas/hora × 0,067 horas = 1,5 Erlang

El tráfico Erlang calcula la media estadística. En la práctica siempre hay picos, reintentos y variaciones, por lo que se aplica un margen de seguridad multiplicando por 3.

La regla rápida para dimensionamiento:

  • Concurrencia ≈ CPS × duración de llamada (en segundos) / 60
  • Ejemplo: 5 CPS × 240 segundos / 60 = 20 llamadas simultáneas
El tráfico Erlang calcula la media estadística - netelip

Ejemplo real con números:

Un cliente comunica los siguientes datos de su campaña:

  • 3.500 llamadas al mes.
  • 180 llamadas al día.
  • Jornada de 8 horas.
  • Duración media de llamada: 4 minutos.

Paso 1 — Llamadas por hora: 180 llamadas / 8 horas = 22,5 llamadas por hora.

Paso 2 — Tráfico Erlang: 22,5 × (4/60) = 22,5 × 0,067 ≈ 1,5 Erlang.

Paso 3 — Canales necesarios: 1,5 × 3 (margen estándar) ≈ 5 canales suficientes para esta campaña.

Por qué se empieza con 30 canales: Aunque la campaña de este ejemplo solo necesita 5 canales, arrancar con 30 es la práctica correcta. Da margen para picos de tráfico, reintentos, aumento futuro de volumen y campañas paralelas. Dimensionar al mínimo es el camino más corto hacia los problemas.

4. Qué ocurre cuando no se controla el tráfico

Los carriers y operadores tienen sistemas automáticos que detectan patrones de tráfico anómalos. Los agentes de voz con IA son especialmente susceptibles a activar estas detecciones si no se configuran correctamente, porque el sistema es automático y puede lanzar llamadas muy rápido sin ningún tipo de control.

4.1.Patrones que activan las alarmas

Los sistemas antifraude de los carriers no analizan solo el volumen, sino también la regularidad y la forma del tráfico:

  • 3 CPS, 3 CPS, 3 CPS, 3 CPS (flujo regular y predecible): Tráfico sano.
  • CPS, 0 CPS, 50 CPS, 0 CPS (picos violentos): Tráfico sospechoso.

Los picos violentos son habituales en sistemas de IA mal configurados: scripts que se ejecutan en bucle, webhooks sin pacing, o automatizaciones que disparan todas las llamadas de golpe cuando se cumple una condición.

4.2. CLI repetido

Cuando muchas llamadas salen con el mismo número de origen en poco tiempo, los operadores lo interpretan como robocalling o spam masivo. Las consecuencias son la limitación de la ruta, el marcado del CLI como sospechoso, o la aplicación de filtros que afectan a todas las llamadas de esa numeración.

4.3. Llamadas demasiado cortas

Los sistemas antifraude también detectan patrones como muchas llamadas de 1-2 segundos, muchas llamadas rechazadas, o muchos números inexistentes. Estos patrones se parecen a los de escaneo de números o campañas de spam, y activan protecciones automáticas.

4.4. Qué hace la IA sin control de tráfico

Si un agente de voz no tiene ninguna capa de control entre él y el SIP trunk, el resultado es predecible:

  • IA genera evento → webhook → llamada
  • IA genera evento → webhook → llamada
  • IA genera evento → webhook → llamada (×100 en segundos)

Resultado: errores SIP 403/503, timeouts, llamadas que no se completan y bloqueo temporal de la ruta por parte del carrier.

5. La arquitectura correcta para campañas outbound

La solución es interponer una capa de control entre la IA y la infraestructura telefónica. La IA no debe lanzar llamadas directamente. Debe pasar por un sistema que regule el ritmo y respete los límites de la red. Esta arquitectura tiene cuatro capas:

5.1. Capa 1 — Cola de llamadas

La lista de números a contactar se introduce en una cola de trabajo. En lugar de llamar directamente, cada número espera su turno en la cola. Esto evita que el sistema dispare todas las llamadas simultáneamente.

5.2. Capa 2 — Controlador de CPS

Un proceso extrae números de la cola a una velocidad controlada. Si el CPS está configurado a 3, cada segundo salen exactamente 3 llamadas. El tráfico resultante es estable y predecible, lo que los operadores interpretan como tráfico legítimo.

5.3. Capa 3 — Workers de llamada

Los workers son procesos que ejecutan la llamada: reciben un número, inician la llamada a través del SIP trunk, conectan con el agente de IA y gestionan el flujo hasta que la llamada termina. Pueden ejecutarse en paralelo respetando siempre el límite de canales disponibles.

5.4. Capa 4 — Infraestructura de telefonía (netelip)

El SIP trunk, los canales salientes, las rutas PSTN y las protecciones de red son responsabilidad de esta capa. Las llamadas procedentes de los workers llegan ya reguladas, lo que garantiza que el tráfico no activa protecciones de los operadores.

Concepto clave:

La IA puede crear miles de conversaciones, pero netelip es quien regula cómo esas llamadas entran en la red telefónica para que todo funcione de forma estable. La IA escala casi infinito. La telefonía marca el ritmo.

6. El segundo cuello de botella: la latencia de la IA

La infraestructura telefónica no es el único límite. La propia IA tiene un ciclo de procesamiento que, bajo carga alta, puede degradar la calidad de la conversación. En cada turno, el sistema ejecuta tres pasos en cadena:

  • convierte el audio del usuario en textoSTT (Speech-to-Text),
  • procesa el texto y genera una respuestaLLM (modelo de lenguaje),
  • convierte la respuesta en audio que se envía al usuarioTTS (Text-to-Speech).

Cuando aumentan las llamadas simultáneas, estos tiempos se acumulan. El síntoma más habitual es un silencio de 2-3 segundos antes de que el agente responda.

Latencia de la IA - netelip

Las plataformas bien diseñadas mitigan esto con streaming parcial del LLM, TTS en streaming y procesamiento paralelo mientras el usuario todavía está hablando.

7. Cómo escalar una campaña de forma correcta

El proceso de escalado que aplica netelip responde a la lógica de cómo funcionan los operadores, los carriers y la infraestructura de telecomunicaciones:

  • Arrancar con 30 canales salientes y un CPS conservador.
  • Observar el comportamiento: tasa de completado, errores SIP, calidad de audio.
  • Subir a 60 canales una vez confirmada la estabilidad.
  • Continuar el escalado progresivo: 120, 250… según el volumen de la campaña.
  • Ajustar el CPS en paralelo al aumento de canales.
  • Monitorizar ASR y ACD desde el inicio como indicadores de salud de la campaña

Este proceso evita los tres problemas más comunes: la pérdida de llamadas por saturación de canales, los bloqueos por patrones sospechosos de CPS y la degradación de la conversación por sobrecarga de la infraestructura de IA.

8. Métricas de rendimiento: ASR y ACD

Una vez lanzada una campaña, hay dos métricas que permiten saber en todo momento si algo no está funcionando bien y dónde está el problema real.

8.1. ASR (Answer-Seizure Ratio)

El ASR mide el porcentaje de llamadas contestadas respecto al total de intentos realizados.

  • ASR = (llamadas contestadas / llamadas intentadas) × 100
  • Valor de referencia saludable en campañas outbound: ~60%

Un ASR bajo puede indicar problemas en la entrega de las llamadas, pero en campañas con agentes de voz IA la causa más habitual no es la infraestructura telefónica. Suele ser la calidad de la base de datos: números inexistentes, desactualizados o ya marcados como spam por los usuarios o por los sistemas antifraude de los operadores.

8.2. ACD (Average Call Duration)

El ACD mide la duración media de las llamadas que han sido conectadas.

  • ACD = duración total de llamadas conectadas / número de llamadas contestadas.
  • Valor de referencia saludable en campañas outbound: entre 3 y 4 minutos.

Un ACD muy bajo con ASR alto es una señal de alarma: las llamadas se contestan pero el usuario cuelga de inmediato, lo que suele significar que el número de origen está identificado como spam o que el inicio de la conversación del agente genera desconfianza.

Cómo leer ASR y ACD juntos:

Un ACD muy bajo con ASR alto es una señal de alarma - netelip

9. Recomendaciones para mantener métricas saludables

  • Calidad de la base de datos. Usar únicamente números válidos, actualizados y correctamente segmentados. Es el factor con mayor impacto en el ASR.
  • Gestión del CLI. Evitar que los números de origen acumulen reportes de spam. Rotar CLIs en campañas de alto volumen para distribuir el tráfico.
  • Diseño del primer mensaje. El inicio de la conversación del agente debe ser claro y natural. Un primer mensaje agresivo o poco natural es la causa más común de ACD muy bajo con ASR alto.
  • Latencia del agente. Si el sistema tarda demasiado en responder tras conectar la llamada, el usuario interpreta el silencio como spam y cuelga. Mantener la latencia del primer turno por debajo de 1 segundo es crítico para el ACD.
  • Monitorizar desde el inicio. Revisar ASR y ACD desde las primeras llamadas, antes de escalar el volumen. Es mucho más fácil corregir un problema con 30 canales que con 250.

10. Las 4 preguntas antes de lanzar una campaña

Estas cuatro preguntas permiten detectar el 90% de los problemas de dimensionamiento antes de activar cualquier campaña outbound con agentes de voz:

1. ¿A qué CPS vas a lanzar las llamadas?
Es la pregunta más reveladora. Si no tienes respuesta, normalmente no hay control de tráfico configurado.

2. ¿Cuál es la duración media esperada de cada llamada?
Junto con el CPS, permite calcular la concurrencia estimada con la fórmula rápida.

3. ¿Cuántos canales tienes disponibles?
Si la concurrencia estimada supera los canales disponibles, habrá llamadas rechazadas desde el primer día.

4. ¿Tienes pacing configurado entre la IA y el SIP trunk?
Si la respuesta es no, el sistema puede generar picos de CPS que activen las protecciones de los carriers, independientemente del número de canales disponibles.

Resumen:

La mayoría de los problemas en proyectos de agentes de voz con IA no vienen de la IA. Vienen de una telefonía mal dimensionada, de un tráfico sin control o de latencias acumuladas que degradan la conversación.

Cuando esos factores se gestionan bien, los sistemas pueden escalar de forma estable y predecible. El enfoque de netelip, basado en control de canales, CPS, infraestructura SIP profesional, escalado progresivo y monitorización continua de métricas, es el mismo método que usan los operadores VoIP y plataformas de contact center serios.


¿Te ha sido útil esta información?

Aprende desde nuestro canal

Te ayudaremos a conocer todo lo que necesitas sobre la telefonía IP y Cloud Computing. Te harás un experto con multitud de videos demostrativos de todas y cada una de nuestras soluciones.

¡Comienza a trabajar con nuestros video tutoriales!