GPT Realtime 2로 실시간 음성 에이전트 구축

프로덕션 팀을 위한 저지연 음성 대화, 실시간 번역, 스트리밍 전사, 도구 연동 음성 워크플로를 설계하세요.

GPT Realtime 2, WebRTC, 도구 호출, 음성 운영을 다루는 빌더 중심의 독립 워크스페이스입니다.

파형과 마이크 컨트롤이 있는 전문 실시간 음성 인터페이스
음성 스튜디오

내레이션, 대화, 전사를 위한 음성 생성

AI 음성 도구로 내레이션, 대화, 오디오 전사를 생성하세요.

음성
AI 음성

Realtime voice agent planning

GPT Realtime 2 is for teams planning low-latency voice agents with the OpenAI Realtime API

GPT Realtime 2 is an independent workspace for mapping realtime speech-to-speech agents, browser WebRTC sessions, server-side WebSocket audio, streaming transcription, live translation, tool calls, and production usage controls before a team ships a voice workflow.

Last updated:

Key takeaways

  • Use WebRTC when a browser or mobile client needs responsive microphone input and audio output.
  • Use WebSocket when a backend service owns audio routing, recording, telephony, or policy enforcement.
  • Treat tool calls, escalation, monitoring, and cost controls as launch requirements, not afterthoughts.

Architecture fit table

Realtime voice architecture choices for GPT Realtime 2 projects
Workflow signalRecommended setupWhy it matters
Browser voice assistantWebRTC session with short-lived client accessKeeps microphone and playback latency low while avoiding long-lived secrets in the client.
Call center or telephony pathServer-controlled realtime audio with explicit handoff rulesLets the backend manage routing, logs, compliance review, and human escalation.
Live translation or transcriptionSeparate session settings, transcript review, and usage budgetKeeps language handling, quality checks, and cost forecasting visible to operators.

Primary references

실무 워크플로를 위한 음성 에이전트 기능

자연스러운 응답, 제어 가능한 세션, 활용하기 쉬운 전사, 기존 시스템과 연결되는 액션에 집중합니다.

음성-음성 에이전트

지원, 코칭, 접수, 현장 운영에 맞는 자연스러운 실시간 대화.

스트리밍 전사

대화를 검색, 검토, 품질 관리, 후속 작업에 쓸 수 있는 텍스트로 남깁니다.

실시간 번역 워크플로

다국어 대화를 바로 진행할 수 있는 음성 경험으로 연결합니다.

도구 연동 대화

기록 조회, 티켓 생성, 시스템 업데이트, 승인된 작업 실행을 대화 안에서 처리합니다.

세션 제어

지시문, 음성 동작, 컨텍스트, 인계 규칙을 조정해 결과를 안정화합니다.

사용량 가시성

세션 길이, 모델, 도구, 컨텍스트를 기준으로 예산을 계획합니다.

워크플로

음성 아이디어에서 운영 가능한 에이전트까지

첫 화면부터 임시 기능이 아니라 전문 제품처럼 보이는 구축 흐름을 만듭니다.

1

에이전트 정의

역할, 경계, 인계 규칙, 성공 기준을 먼저 정합니다.

2

실시간 세션 구성

대상 채널에 맞게 음성 동작, 입력 방식, 턴 처리, 컨텍스트 전략을 고릅니다.

3

도구와 데이터 연결

필요한 시스템만 연결하고 권한과 실패 경로를 분명히 합니다.

4

사용량 검토 후 출시

전사 품질, 지연, 도구 활동, 크레딧 소모를 확인한 뒤 확장합니다.

아키텍처

실시간 음성을 위한 구현 패턴

브라우저 음성, 서버 사이드 오디오, 안전한 클라이언트 접근, 도구 기반 대화를 채널에 맞게 설계합니다.

브라우저 WebRTC 음성 전송 일러스트
WebRTC

브라우저 음성 전송

웹 제품에서 마이크 입력과 오디오 출력을 저지연으로 다룰 때 WebRTC가 적합합니다.

적합: 브라우저 음성 어시스턴트와 자연스러운 턴테이킹.

아키텍처 보기
서버 사이드 오디오 스트림 아키텍처 일러스트
오디오 파이프라인

서버 사이드 스트림

백엔드 오케스트레이션, 녹음, 전화 연동, 컴플라이언스가 중요할 때 사용합니다.

적합: 콜 라우팅, 감사 기록, 서버 상태, 기업 시스템 연동.

아키텍처 보기
임시 클라이언트 시크릿 보안 일러스트
보안

임시 클라이언트 시크릿

서버가 짧게 유지되는 클라이언트 시크릿을 발급해 권한이 큰 키를 노출하지 않습니다.

적합: 안전한 세션 시작과 정책 적용이 필요한 프로덕션 클라이언트.

아키텍처 보기
음성 도구와 정책 오케스트레이션 일러스트
도구

도구와 정책

함수 호출, 업무 규칙, 검색, 사람 인계를 음성 대화 안에 연결합니다.

적합: 지원, 영업, 교육, 운영, 내부 코파일럿.

아키텍처 보기

프로덕션 제약을 기준으로 설계

홈페이지는 일회성 체험이 아니라 전문 음성 에이전트 플랫폼이라는 인상을 줘야 합니다.

128K 긴 실시간 워크플로를 위한 컨텍스트 창

128K

긴 실시간 워크플로를 위한 컨텍스트 창

WebRTC 브라우저 저지연 음성 상호작용

WebRTC

브라우저 저지연 음성 상호작용

Tools 업무 액션과 시스템 인계를 위한 함수 호출

Tools

업무 액션과 시스템 인계를 위한 함수 호출

실시간 음성 에이전트가 맞는 곳

일반 채팅 기능보다 실제 비즈니스 대화를 중심으로 GPT Realtime 2를 배치합니다.

고객 지원 음성 에이전트

반복 문의에 답하고 맥락을 수집하며 필요할 때 사람에게 깔끔하게 넘깁니다.

영업 리드 선별

니즈를 듣고 리드를 정리하며 파이프라인 도구를 업데이트합니다.

언어 학습 튜터

말하기 연습, 교정, 요약, 다음 학습 흐름을 음성으로 제공합니다.

실시간 번역 어시스턴트

통화, 현장 업무, 출장, 운영에서 다국어 커뮤니케이션을 돕습니다.

회의와 현장 코파일럿

구두 업데이트를 노트, 작업, 후속 기록으로 바꿉니다.

내부 운영 어시스턴트

체크리스트, 정책 질문, 시스템 액션을 핸즈프리로 안내합니다.

GPT Realtime 2 FAQ

실시간 음성 에이전트를 검토하는 팀을 위한 핵심 답변입니다.