
Transporte de voz en navegador
Usa WebRTC cuando necesitas micrófono y salida de audio de baja latencia dentro de un producto web.
Ideal para asistentes de voz en navegador con turnos rápidos.
Diseña asistentes de voz de baja latencia, traducción en vivo, transcripción en streaming y experiencias con herramientas para equipos de producción.
Un espacio independiente para builders que trabajan con GPT Realtime 2, WebRTC, herramientas y operación de voz.

Genera narraciones, dialogos o transcripciones con herramientas de voz IA.
Realtime voice agent planning
GPT Realtime 2 is an independent workspace for mapping realtime speech-to-speech agents, browser WebRTC sessions, server-side WebSocket audio, streaming transcription, live translation, tool calls, and production usage controls before a team ships a voice workflow.
Last updated:
| Workflow signal | Recommended setup | Why it matters |
|---|---|---|
| Browser voice assistant | WebRTC session with short-lived client access | Keeps microphone and playback latency low while avoiding long-lived secrets in the client. |
| Call center or telephony path | Server-controlled realtime audio with explicit handoff rules | Lets the backend manage routing, logs, compliance review, and human escalation. |
| Live translation or transcription | Separate session settings, transcript review, and usage budget | Keeps language handling, quality checks, and cost forecasting visible to operators. |
La página se centra en lo que necesita un equipo: conversaciones ágiles, sesiones controladas, transcripciones útiles y acciones conectadas a sistemas.
Conversaciones naturales para soporte, coaching, intake y operaciones guiadas.
Convierte sesiones habladas en texto útil para revisión, búsqueda, QA y seguimiento.
Mantén conversaciones multilingües usables mientras están ocurriendo.
Permite consultar registros, crear tickets, actualizar sistemas o activar acciones aprobadas.
Ajusta instrucciones, comportamiento de voz, contexto y reglas de transferencia.
Planifica por duración de sesión, modelo, herramientas y contexto para presupuestar mejor.
Un modelo de trabajo claro para que el sistema parezca profesional desde el primer vistazo.
Fija rol, límites, reglas de escalamiento y criterios de éxito antes de conectar herramientas.
Elige voz, modos de entrada, turnos y estrategia de contexto para cada canal.
Añade solo los sistemas necesarios, con permisos claros y rutas de fallo previsibles.
Comprueba calidad de transcripción, latencia, actividad de herramientas y consumo de créditos.
Arquitectura
Elige transporte y forma de sesión según el canal: navegador, audio en servidor, acceso seguro y conversaciones con herramientas.

Usa WebRTC cuando necesitas micrófono y salida de audio de baja latencia dentro de un producto web.
Ideal para asistentes de voz en navegador con turnos rápidos.

Útil cuando pesan más la orquestación backend, la grabación, la telefonía o la revisión de cumplimiento.
Ideal para enrutamiento de llamadas, auditoría, estado en servidor e integraciones.

Emite secretos de cliente de corta duración desde tu servidor para no exponer credenciales privilegiadas.
Ideal para clientes de producción con inicio seguro y políticas centralizadas.

Conecta llamadas a funciones, reglas de negocio, recuperación de información y transferencia humana.
Ideal para soporte, ventas, formación, operaciones y copilotos internos.
La página debe transmitir una plataforma profesional de voz, no una página pasajera.
ventana de contexto para flujos realtime extensos
voz en navegador con baja latencia
llamadas a funciones para acciones y transferencias
Posicionamos GPT Realtime 2 alrededor de conversaciones de negocio concretas.
Responde preguntas frecuentes, recopila contexto y transfiere a una persona cuando toca.
Recoge necesidades, enruta leads y actualiza herramientas comerciales.
Practica conversación con correcciones, resúmenes y avance adaptativo.
Ayuda a equipos multilingües en llamadas, campo, viajes y operaciones.
Convierte actualizaciones habladas en notas, tareas y registros.
Guía checklists, políticas y acciones de sistema sin usar las manos.
Respuestas claras para equipos que evalúan agentes de voz realtime.