用 GPT Realtime 2 构建实时语音智能体

面向生产团队设计低延迟语音对话助手、实时翻译、流式转写，以及能够调用工具的专业语音工作流。

开始构建查看架构

面向开发者与业务团队的独立 GPT Realtime 2 工作台，覆盖 WebRTC、工具调用和语音运营。

带有声波和麦克风控制的专业实时语音界面

声音工作台

用于旁白、对话和转写的声音生成器

生成旁白、对话或音频转写。

声音

AI 声音

实时语音智能体规划

GPT Realtime 2 面向使用 OpenAI Realtime API 规划低延迟语音智能体的团队

GPT Realtime 2 是一个独立工作台，帮助团队在上线前梳理实时语音对话智能体、浏览器 WebRTC 会话、服务端 WebSocket 音频、流式转写、实时翻译、工具调用和生产用量控制。

最后更新： 2026 年 5 月 10 日

关键结论

当浏览器或移动端需要低延迟麦克风输入和音频输出时，优先使用 WebRTC。
当后端需要掌控音频路由、录音、电话系统或策略执行时，优先使用 WebSocket 或服务端实时链路。
工具调用、升级转人工、监控和成本控制应当作为上线条件，而不是上线后的补丁。

架构适配表

GPT Realtime 2 项目的实时语音架构选择
工作流信号	推荐设置	为什么重要
浏览器语音助手	WebRTC 会话 + 短时客户端访问凭证	降低麦克风和播放延迟，同时避免在客户端暴露长期密钥。
呼叫中心或电话链路	服务端控制实时音频，并明确转人工规则	后端可以统一处理路由、日志、合规复查和人工升级。
实时翻译或转写	拆分会话设置、转写复盘和用量预算	让语言处理、质量检查和成本预测对运营团队可见。

主要参考

面向严肃业务流程的语音智能体能力

首页聚焦团队真正需要的能力：响应自然的语音对话、可控会话、可追溯转写，以及能接入业务系统的工具动作。

语音到语音智能体

适合客服、辅导、信息采集和一线运营的自然实时对话。

流式转写

把语音会话沉淀为结构化文本，方便复盘、检索、质检和后续跟进。

实时翻译工作流

让多语言对话在发生当下就能推进，而不是事后再整理。

可调用工具的对话

语音智能体可以查记录、建工单、更新系统或触发已批准的动作。

会话控制

统一管理指令、声音行为、上下文和转人工规则，保证结果可复用。

用量可见

围绕会话时长、模型、工具和上下文规划预算，避免上线后失控。

工作流

从语音想法到可上线智能体

用清晰的建设路径，让实时语音系统看起来像专业产品，而不是临时试验。

1

定义智能体

先写清角色、边界、升级规则和成功标准，再处理传输和工具。

2

配置实时会话

为目标渠道选择声音行为、输入模式、轮次处理和上下文策略。

3

接入工具和数据

只连接智能体真正需要的系统，并给出明确权限和失败路径。

4

复盘用量并上线

在扩大流量前检查转写质量、延迟、工具行为和额度消耗。

架构

实时语音的专业实现方式

根据渠道选择合适的传输和会话形态：浏览器语音、服务端音频、安全客户端访问，以及带工具的语音对话。

浏览器 WebRTC 语音传输插图

WebRTC

浏览器语音传输

需要网页中直接使用麦克风和音频输出时，优先考虑 WebRTC。

适合：网页语音助手、低延迟交互和自然轮次。

服务端音频流架构插图

音频管线

服务端音频流

当后端编排、录音、电话系统或合规流程更重要时，用服务端控制音频链路。

适合：呼叫路由、审计留痕、服务端状态和企业集成。

临时访问凭证安全插图

安全

临时访问凭证

由服务器签发短时客户端凭证，避免在浏览器暴露高权限密钥。

适合：需要安全启动会话和统一策略控制的生产客户端。

语音工具与策略编排插图

工具链

工具与策略

把函数调用、业务规则、检索和转人工路径接进语音会话。

适合：客服、销售、培训、运营和内部助手。

围绕生产约束设计

首页需要传达的是专业语音智能体平台，而不是一个临时体验页。

128K

上下文窗口，适合较长实时工作流

WebRTC

面向浏览器低延迟语音交互

工具调用

把对话连接到业务动作和系统交接

实时语音智能体适合哪些场景

围绕真实业务对话来定位 GPT Realtime 2，而不是泛泛介绍聊天功能。

客服语音智能体

处理常见问题，收集上下文，并在需要人工时清楚交接。

销售线索筛选

自然沟通需求、记录线索，并同步到销售工具。

语言学习陪练

进行口语练习、纠错、总结，并根据表现调整下一步课程。

实时翻译助手

帮助跨语言团队在电话、现场、差旅和运营中直接沟通。

会议与现场助手

把口头更新整理成笔记、任务和后续记录。

内部运营助手

免手操作完成清单、制度问答和系统动作。

GPT Realtime 2 常见问题

给正在评估实时语音智能体的团队一个清楚答案。