Thinking Machinesが音声・映像の同時会話技術を研究プレビュー

Thinking Machinesは、音声と映像を用いた「近リアルタイム」のAI会話を実現する新たな「interaction models」の研究プレビューを発表しました。
同社は、従来のチャットのように入力後に出力を返す「ターン制」ではなく、入力を受けながら次の入力処理も進める流動的な応答が必要だと説明しています。
発表の中心には、200ミリ秒単位の入力と出力を同時に処理する「full duplex」設計があります。
これによりモデルは、ユーザーが話している最中も、視覚的な手がかりを検知した際に割り込みやバックチャネルを行えるとしています。
研究プレビューでは、TML-Interaction-Small(2760億パラメータのMoE、アクティブ12億)を提示し、会話管理などを担当するInteraction Modelと、推論やツール呼び出しを担うBackground Modelの二段構えにしました。
FD-benchではターン交代の遅延0.40秒、相互作用品質77.8を記録し、既存の高速モデルを上回ったとしています。
モデルは一般公開や企業向け提供は未実施で、今後数か月の限定プレビューと、年内のより広い提供を予定しています。

参照元:2026/05/12 「Thinking Machines shows off preview of near-realtime AI voice and video conversation with new ‘interaction models’」 https://venturebeat.com/technology/thinking-machines-shows-off-preview-of-near-realtime-ai-voice-and-video-conversation-with-new-interaction-models

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/12
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次