OpenAI、新たな音声モデル3種でリアルタイム推論と運用負担を軽減へ

2026年5月9日

OpenAIは、リアルタイム音声に「GPT-5クラスの推論」を取り込んだ新しい音声モデル群をAPI向けに発表しました。
同社はGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3モデルを提供し、会話の推論、翻訳、文字起こしをそれぞれ専門化して扱えるようにしました。
従来の音声エージェントは、コンテキスト上限の影響で企業側がセッションのリセットや状態の圧縮・再構築などを各導入に組み込む必要があり、運用コストとオーケストレーションの負担が大きいとされていました。
今回の設計では、音声タスクを単一の音声スタックにまとめず、各機能を別モデルへ振り分けることでオーバーヘッドを下げる狙いがあります。
OpenAIによると、Realtime-2は難しい依頼にも対応し、会話を自然に維持できる同社初の「GPT-5クラスの推論」を備えた音声モデルです。
Realtime-Translateは70以上の言語を理解し、話者のペースに合わせて13言語へ翻訳します。
Realtime-Whisperは新しい音声認識（スピーチ・トゥ・テキスト）モデルです。
企業はモデル性能だけでなく、128Kトークンのコンテキストウィンドウを前提に状態を管理し、個別の音声タスクを適切な専門モデルへルーティングできるかを検討する必要があるとしています。
同社の取り組みは、転記や用途を分ける形で企業向け導入を想定するMistralのVoxtralモデルとも競合します。

参照元：2026/05/09 「OpenAI brings GPT-5-class reasoning to real-time voice — and it changes what voice agents can actually orchestrate」 https://venturebeat.com/orchestration/openai-brings-gpt-5-class-reasoning-to-real-time-voice-and-it-changes-what-voice-agents-can-actually-orchestrate