Thinking Machinesが音声・映像の同時会話技術を研究プレビュー

2026年5月12日

Thinking Machinesは、音声と映像を用いた「近リアルタイム」のAI会話を実現する新たな「interaction models」の研究プレビューを発表しました。
同社は、従来のチャットのように入力後に出力を返す「ターン制」ではなく、入力を受けながら次の入力処理も進める流動的な応答が必要だと説明しています。
発表の中心には、200ミリ秒単位の入力と出力を同時に処理する「full duplex」設計があります。
これによりモデルは、ユーザーが話している最中も、視覚的な手がかりを検知した際に割り込みやバックチャネルを行えるとしています。
研究プレビューでは、TML-Interaction-Small（2760億パラメータのMoE、アクティブ12億）を提示し、会話管理などを担当するInteraction Modelと、推論やツール呼び出しを担うBackground Modelの二段構えにしました。
FD-benchではターン交代の遅延0.40秒、相互作用品質77.8を記録し、既存の高速モデルを上回ったとしています。
モデルは一般公開や企業向け提供は未実施で、今後数か月の限定プレビューと、年内のより広い提供を予定しています。

参照元：2026/05/12 「Thinking Machines shows off preview of near-realtime AI voice and video conversation with new ‘interaction models’」 https://venturebeat.com/technology/thinking-machines-shows-off-preview-of-near-realtime-ai-voice-and-video-conversation-with-new-interaction-models