Construye agentes de voz en tiempo real con GPT Realtime 2

Diseña asistentes de voz de baja latencia, traducción en vivo, transcripción en streaming y experiencias con herramientas para equipos de producción.

Empezar Ver arquitectura

Un espacio independiente para builders que trabajan con GPT Realtime 2, WebRTC, herramientas y operación de voz.

Interfaz profesional de voz en tiempo real con ondas de audio y controles de micrófono

Estudio de voz

Generacion de voz para narracion, dialogo y transcripciones

Genera narraciones, dialogos o transcripciones con herramientas de voz IA.

Voz

Voz IA

Realtime voice agent planning

GPT Realtime 2 is for teams planning low-latency voice agents with the OpenAI Realtime API

GPT Realtime 2 is an independent workspace for mapping realtime speech-to-speech agents, browser WebRTC sessions, server-side WebSocket audio, streaming transcription, live translation, tool calls, and production usage controls before a team ships a voice workflow.

Last updated: May 10, 2026

Key takeaways

Use WebRTC when a browser or mobile client needs responsive microphone input and audio output.
Use WebSocket when a backend service owns audio routing, recording, telephony, or policy enforcement.
Treat tool calls, escalation, monitoring, and cost controls as launch requirements, not afterthoughts.

Architecture fit table

Realtime voice architecture choices for GPT Realtime 2 projects
Workflow signal	Recommended setup	Why it matters
Browser voice assistant	WebRTC session with short-lived client access	Keeps microphone and playback latency low while avoiding long-lived secrets in the client.
Call center or telephony path	Server-controlled realtime audio with explicit handoff rules	Lets the backend manage routing, logs, compliance review, and human escalation.
Live translation or transcription	Separate session settings, transcript review, and usage budget	Keeps language handling, quality checks, and cost forecasting visible to operators.

Primary references

Capacidades de voz para flujos de trabajo serios

La página se centra en lo que necesita un equipo: conversaciones ágiles, sesiones controladas, transcripciones útiles y acciones conectadas a sistemas.

Agentes speech-to-speech

Conversaciones naturales para soporte, coaching, intake y operaciones guiadas.

Transcripción en streaming

Convierte sesiones habladas en texto útil para revisión, búsqueda, QA y seguimiento.

Traducción en vivo

Mantén conversaciones multilingües usables mientras están ocurriendo.

Conversaciones con herramientas

Permite consultar registros, crear tickets, actualizar sistemas o activar acciones aprobadas.

Control de sesión

Ajusta instrucciones, comportamiento de voz, contexto y reglas de transferencia.

Visibilidad de uso

Planifica por duración de sesión, modelo, herramientas y contexto para presupuestar mejor.

Flujo

De una idea de voz a un agente listo para operar

Un modelo de trabajo claro para que el sistema parezca profesional desde el primer vistazo.

Define el agente

Fija rol, límites, reglas de escalamiento y criterios de éxito antes de conectar herramientas.

Configura sesiones realtime

Elige voz, modos de entrada, turnos y estrategia de contexto para cada canal.

Conecta herramientas y datos

Añade solo los sistemas necesarios, con permisos claros y rutas de fallo previsibles.

Revisa uso y lanza

Comprueba calidad de transcripción, latencia, actividad de herramientas y consumo de créditos.

Arquitectura

Patrones de implementación para voz realtime

Elige transporte y forma de sesión según el canal: navegador, audio en servidor, acceso seguro y conversaciones con herramientas.

WebRTC

Transporte de voz en navegador

Usa WebRTC cuando necesitas micrófono y salida de audio de baja latencia dentro de un producto web.

Ideal para asistentes de voz en navegador con turnos rápidos.

Ver arquitectura

Ilustración de arquitectura de streams de audio en servidor

Pipeline de audio

Streams del lado servidor

Útil cuando pesan más la orquestación backend, la grabación, la telefonía o la revisión de cumplimiento.

Ideal para enrutamiento de llamadas, auditoría, estado en servidor e integraciones.

Ver arquitectura

Seguridad

Acceso efímero

Emite secretos de cliente de corta duración desde tu servidor para no exponer credenciales privilegiadas.

Ideal para clientes de producción con inicio seguro y políticas centralizadas.

Ver arquitectura

Herramientas

Herramientas y políticas

Conecta llamadas a funciones, reglas de negocio, recuperación de información y transferencia humana.

Ideal para soporte, ventas, formación, operaciones y copilotos internos.

Ver arquitectura

Pensado para restricciones reales de producción

La página debe transmitir una plataforma profesional de voz, no una página pasajera.

128K

ventana de contexto para flujos realtime extensos

WebRTC

voz en navegador con baja latencia

Tools

llamadas a funciones para acciones y transferencias

Dónde encajan los agentes de voz realtime

Posicionamos GPT Realtime 2 alrededor de conversaciones de negocio concretas.

Soporte al cliente por voz

Responde preguntas frecuentes, recopila contexto y transfiere a una persona cuando toca.

Calificación de ventas

Recoge necesidades, enruta leads y actualiza herramientas comerciales.

Tutores de idiomas

Practica conversación con correcciones, resúmenes y avance adaptativo.

Asistentes de traducción en vivo

Ayuda a equipos multilingües en llamadas, campo, viajes y operaciones.

Copilotos de reuniones y campo

Convierte actualizaciones habladas en notas, tareas y registros.

Asistentes de operaciones internas

Guía checklists, políticas y acciones de sistema sin usar las manos.

FAQ de GPT Realtime 2

Respuestas claras para equipos que evalúan agentes de voz realtime.

Construye agentes de voz en tiempo real con GPT Realtime 2

Generacion de voz para narracion, dialogo y transcripciones

GPT Realtime 2 is for teams planning low-latency voice agents with the OpenAI Realtime API

Key takeaways

Architecture fit table

Primary references

Capacidades de voz para flujos de trabajo serios

Agentes speech-to-speech

Transcripción en streaming

Traducción en vivo

Conversaciones con herramientas

Control de sesión

Visibilidad de uso

De una idea de voz a un agente listo para operar

Define el agente

Configura sesiones realtime

Conecta herramientas y datos

Revisa uso y lanza

Patrones de implementación para voz realtime

Transporte de voz en navegador

Streams del lado servidor

Acceso efímero

Herramientas y políticas

Pensado para restricciones reales de producción

128K ventana de contexto para flujos realtime extensos

WebRTC voz en navegador con baja latencia

Tools llamadas a funciones para acciones y transferencias

Dónde encajan los agentes de voz realtime

Soporte al cliente por voz

Calificación de ventas

Tutores de idiomas

Asistentes de traducción en vivo

Copilotos de reuniones y campo

Asistentes de operaciones internas

FAQ de GPT Realtime 2

¿Es un sitio oficial de OpenAI?

¿Puedo construir agentes de voz para producción?

¿Soporta WebRTC?

¿Los agentes pueden llamar herramientas?

¿Cómo se controla el costo?

¿Para quién es esta página?