Construye agentes de voz en tiempo real con GPT Realtime 2

Diseña asistentes de voz de baja latencia, traducción en vivo, transcripción en streaming y experiencias con herramientas para equipos de producción.

Un espacio independiente para builders que trabajan con GPT Realtime 2, WebRTC, herramientas y operación de voz.

Interfaz profesional de voz en tiempo real con ondas de audio y controles de micrófono
Estudio de voz

Generacion de voz para narracion, dialogo y transcripciones

Genera narraciones, dialogos o transcripciones con herramientas de voz IA.

Voz
Voz IA

Realtime voice agent planning

GPT Realtime 2 is for teams planning low-latency voice agents with the OpenAI Realtime API

GPT Realtime 2 is an independent workspace for mapping realtime speech-to-speech agents, browser WebRTC sessions, server-side WebSocket audio, streaming transcription, live translation, tool calls, and production usage controls before a team ships a voice workflow.

Last updated:

Key takeaways

  • Use WebRTC when a browser or mobile client needs responsive microphone input and audio output.
  • Use WebSocket when a backend service owns audio routing, recording, telephony, or policy enforcement.
  • Treat tool calls, escalation, monitoring, and cost controls as launch requirements, not afterthoughts.

Architecture fit table

Realtime voice architecture choices for GPT Realtime 2 projects
Workflow signalRecommended setupWhy it matters
Browser voice assistantWebRTC session with short-lived client accessKeeps microphone and playback latency low while avoiding long-lived secrets in the client.
Call center or telephony pathServer-controlled realtime audio with explicit handoff rulesLets the backend manage routing, logs, compliance review, and human escalation.
Live translation or transcriptionSeparate session settings, transcript review, and usage budgetKeeps language handling, quality checks, and cost forecasting visible to operators.

Primary references

Capacidades de voz para flujos de trabajo serios

La página se centra en lo que necesita un equipo: conversaciones ágiles, sesiones controladas, transcripciones útiles y acciones conectadas a sistemas.

Agentes speech-to-speech

Conversaciones naturales para soporte, coaching, intake y operaciones guiadas.

Transcripción en streaming

Convierte sesiones habladas en texto útil para revisión, búsqueda, QA y seguimiento.

Traducción en vivo

Mantén conversaciones multilingües usables mientras están ocurriendo.

Conversaciones con herramientas

Permite consultar registros, crear tickets, actualizar sistemas o activar acciones aprobadas.

Control de sesión

Ajusta instrucciones, comportamiento de voz, contexto y reglas de transferencia.

Visibilidad de uso

Planifica por duración de sesión, modelo, herramientas y contexto para presupuestar mejor.

Flujo

De una idea de voz a un agente listo para operar

Un modelo de trabajo claro para que el sistema parezca profesional desde el primer vistazo.

1

Define el agente

Fija rol, límites, reglas de escalamiento y criterios de éxito antes de conectar herramientas.

2

Configura sesiones realtime

Elige voz, modos de entrada, turnos y estrategia de contexto para cada canal.

3

Conecta herramientas y datos

Añade solo los sistemas necesarios, con permisos claros y rutas de fallo previsibles.

4

Revisa uso y lanza

Comprueba calidad de transcripción, latencia, actividad de herramientas y consumo de créditos.

Arquitectura

Patrones de implementación para voz realtime

Elige transporte y forma de sesión según el canal: navegador, audio en servidor, acceso seguro y conversaciones con herramientas.

Ilustración de transporte de voz WebRTC en navegador
WebRTC

Transporte de voz en navegador

Usa WebRTC cuando necesitas micrófono y salida de audio de baja latencia dentro de un producto web.

Ideal para asistentes de voz en navegador con turnos rápidos.

Ver arquitectura
Ilustración de arquitectura de streams de audio en servidor
Pipeline de audio

Streams del lado servidor

Útil cuando pesan más la orquestación backend, la grabación, la telefonía o la revisión de cumplimiento.

Ideal para enrutamiento de llamadas, auditoría, estado en servidor e integraciones.

Ver arquitectura
Ilustración de seguridad con acceso efímero
Seguridad

Acceso efímero

Emite secretos de cliente de corta duración desde tu servidor para no exponer credenciales privilegiadas.

Ideal para clientes de producción con inicio seguro y políticas centralizadas.

Ver arquitectura
Ilustración de herramientas y políticas para voz
Herramientas

Herramientas y políticas

Conecta llamadas a funciones, reglas de negocio, recuperación de información y transferencia humana.

Ideal para soporte, ventas, formación, operaciones y copilotos internos.

Ver arquitectura

Pensado para restricciones reales de producción

La página debe transmitir una plataforma profesional de voz, no una página pasajera.

128K ventana de contexto para flujos realtime extensos

128K

ventana de contexto para flujos realtime extensos

WebRTC voz en navegador con baja latencia

WebRTC

voz en navegador con baja latencia

Tools llamadas a funciones para acciones y transferencias

Tools

llamadas a funciones para acciones y transferencias

Dónde encajan los agentes de voz realtime

Posicionamos GPT Realtime 2 alrededor de conversaciones de negocio concretas.

Soporte al cliente por voz

Responde preguntas frecuentes, recopila contexto y transfiere a una persona cuando toca.

Calificación de ventas

Recoge necesidades, enruta leads y actualiza herramientas comerciales.

Tutores de idiomas

Practica conversación con correcciones, resúmenes y avance adaptativo.

Asistentes de traducción en vivo

Ayuda a equipos multilingües en llamadas, campo, viajes y operaciones.

Copilotos de reuniones y campo

Convierte actualizaciones habladas en notas, tareas y registros.

Asistentes de operaciones internas

Guía checklists, políticas y acciones de sistema sin usar las manos.

FAQ de GPT Realtime 2

Respuestas claras para equipos que evalúan agentes de voz realtime.