OpenAI、新たな音声モデル3種でリアルタイム推論と運用負担を軽減へ

OpenAIは、リアルタイム音声に「GPT-5クラスの推論」を取り込んだ新しい音声モデル群をAPI向けに発表しました。
同社はGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3モデルを提供し、会話の推論、翻訳、文字起こしをそれぞれ専門化して扱えるようにしました。
従来の音声エージェントは、コンテキスト上限の影響で企業側がセッションのリセットや状態の圧縮・再構築などを各導入に組み込む必要があり、運用コストとオーケストレーションの負担が大きいとされていました。
今回の設計では、音声タスクを単一の音声スタックにまとめず、各機能を別モデルへ振り分けることでオーバーヘッドを下げる狙いがあります。
OpenAIによると、Realtime-2は難しい依頼にも対応し、会話を自然に維持できる同社初の「GPT-5クラスの推論」を備えた音声モデルです。
Realtime-Translateは70以上の言語を理解し、話者のペースに合わせて13言語へ翻訳します。
Realtime-Whisperは新しい音声認識(スピーチ・トゥ・テキスト)モデルです。
企業はモデル性能だけでなく、128Kトークンのコンテキストウィンドウを前提に状態を管理し、個別の音声タスクを適切な専門モデルへルーティングできるかを検討する必要があるとしています。
同社の取り組みは、転記や用途を分ける形で企業向け導入を想定するMistralのVoxtralモデルとも競合します。

参照元:2026/05/09 「OpenAI brings GPT-5-class reasoning to real-time voice — and it changes what voice agents can actually orchestrate」 https://venturebeat.com/orchestration/openai-brings-gpt-5-class-reasoning-to-real-time-voice-and-it-changes-what-voice-agents-can-actually-orchestrate

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/09
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次