GPT Realtime 2でリアルタイム音声エージェントを構築

低遅延の音声対話、ライブ翻訳、ストリーミング文字起こし、ツール連携を、実運用を見据えた形で設計できます。

GPT Realtime 2、WebRTC、ツール連携、音声運用を扱うビルダー向けの独立したワークスペースです。

波形とマイク操作を備えたプロ向けリアルタイム音声インターフェース
音声スタジオ

ナレーション、会話、文字起こしのための音声生成

ナレーション、会話、音声文字起こしをAI音声ツールで作成できます。

音声
AI音声

Realtime voice agent planning

GPT Realtime 2 is for teams planning low-latency voice agents with the OpenAI Realtime API

GPT Realtime 2 is an independent workspace for mapping realtime speech-to-speech agents, browser WebRTC sessions, server-side WebSocket audio, streaming transcription, live translation, tool calls, and production usage controls before a team ships a voice workflow.

Last updated:

Key takeaways

  • Use WebRTC when a browser or mobile client needs responsive microphone input and audio output.
  • Use WebSocket when a backend service owns audio routing, recording, telephony, or policy enforcement.
  • Treat tool calls, escalation, monitoring, and cost controls as launch requirements, not afterthoughts.

Architecture fit table

Realtime voice architecture choices for GPT Realtime 2 projects
Workflow signalRecommended setupWhy it matters
Browser voice assistantWebRTC session with short-lived client accessKeeps microphone and playback latency low while avoiding long-lived secrets in the client.
Call center or telephony pathServer-controlled realtime audio with explicit handoff rulesLets the backend manage routing, logs, compliance review, and human escalation.
Live translation or transcriptionSeparate session settings, transcript review, and usage budgetKeeps language handling, quality checks, and cost forecasting visible to operators.

Primary references

業務ワークフローに向いた音声エージェント機能

自然な応答、制御しやすいセッション、扱いやすい記録、既存システムにつながるアクションに絞って伝えます。

音声対話エージェント

サポート、コーチング、受付、現場業務に使える自然なリアルタイム会話。

ストリーミング文字起こし

会話を検索、確認、品質管理、フォローアップに使えるテキストとして残します。

ライブ翻訳ワークフロー

多言語の会話を、その場で進められる音声体験にします。

ツール連携会話

記録確認、チケット作成、システム更新、承認済みアクションを会話から実行できます。

セッション制御

指示、声の振る舞い、文脈、引き継ぎルールを整え、再現性を高めます。

利用状況の把握

会話時間、モデル、ツール、文脈量を見ながら予算を立てられます。

ワークフロー

音声アイデアから運用できるエージェントへ

最初の画面から、試作品ではなく業務プロダクトとして見える進め方にします。

1

役割を定義

役割、境界、エスカレーション、成功条件を先に決めます。

2

リアルタイムセッションを設定

声の振る舞い、入力形式、発話ターン、文脈戦略を選びます。

3

ツールとデータを接続

必要なシステムだけを接続し、権限と失敗時の流れを明確にします。

4

利用状況を確認して公開

品質、遅延、ツール動作、クレジット消費を確認してから広げます。

アーキテクチャ

リアルタイム音声の実装パターン

ブラウザ音声、サーバー側音声、安全なクライアント接続、ツール連携の会話を、用途に合わせて設計します。

ブラウザ WebRTC 音声通信のイラスト
WebRTC

ブラウザ音声通信

Web上でマイク入力と音声出力を低遅延に扱うならWebRTCが向いています。

向いている用途: Web音声アシスタント、自然なターンテイキング。

構成を見る
サーバー側音声ストリーム構成のイラスト
音声パイプライン

サーバー側ストリーム

録音、電話連携、バックエンド制御、監査が重要な場合に適しています。

向いている用途: 通話ルーティング、状態管理、企業システム連携。

構成を見る
短期クライアント認証のセキュリティイラスト
セキュリティ

短期クライアント認証

サーバーから短期間のクライアントシークレットを発行し、強い権限のキーを隠します。

向いている用途: 本番クライアント、安全なセッション開始、ポリシー適用。

構成を見る
音声ツールと運用ルールの編成イラスト
ツール連携

ツールと運用ルール

関数呼び出し、業務ルール、検索、人的引き継ぎを音声会話に組み込みます。

向いている用途: サポート、営業、研修、業務支援。

構成を見る

運用上の制約を前提に設計

一時的な体験ではなく、プロ向け音声エージェント基盤として伝えます。

128K 長いリアルタイムワークフローを支える文脈ウィンドウ

128K

長いリアルタイムワークフローを支える文脈ウィンドウ

WebRTC ブラウザで低遅延音声体験を構築

WebRTC

ブラウザで低遅延音声体験を構築

ツール 会話から業務アクションと引き継ぎへ接続

ツール

会話から業務アクションと引き継ぎへ接続

リアルタイム音声エージェントの活用シーン

一般的なチャットではなく、具体的な業務会話に合わせて位置づけます。

カスタマーサポート音声

よくある質問に答え、状況を集め、必要なら人へ引き継ぎます。

営業ヒアリング

ニーズを確認し、見込み客情報を営業ツールへ整理します。

語学学習チューター

会話練習、訂正、要約、次の学習導線を音声で提供します。

ライブ翻訳アシスタント

通話、現場、出張、運用の多言語コミュニケーションを支えます。

会議・現場コパイロット

口頭の報告をメモ、タスク、フォローアップに変換します。

社内業務アシスタント

チェックリスト、規程確認、システム操作をハンズフリーで案内します。

GPT Realtime 2 FAQ

リアルタイム音声エージェントを検討するチーム向けの要点です。