Nutanix、生成AI本番で「トークン当たり」とGPU稼働を重視する統合基盤を提案

2026年5月1日

企業がAIの実験から本番展開へ移行する中、コストの主因は基盤モデルの学習費から、同時推論を多数処理するためのインフラ運用へ移っているとNutanixが指摘しました。特にエージェント型AIでは、短時間で予測不能な推論要求が継続的に発生し、GPU、ネットワーク、ストレージの消費が従来のデータセンター設計を上回るという見方です。
同社のAnindo Sengupta氏は、従業員のAIアシスタントや自動化ワークフロー、エージェントのパイプラインが大量のトークン生成を行い、その推論要求がGPU基盤上で処理されると説明しました。
また、トークン当たりの推論コストは過去2年で約10分の1に低下した一方、利用量が100倍超に増え、総コストは上昇していると述べました。
そのため企業ITでは、コスト当たりの指標に加え、GPU稼働率を含む運用指標が重要になるとしています。
エージェント型の高頻度バーストはネットワークやストレージへの負荷を高め、GPU資源とデータアクセスが分離されたサイロ型運用では非効率が蓄積しやすいとNutanixは分析しました。
対策として同社は、計算・ネットワーク・ストレージ・ソフトウェアを一体最適化するフルスタック基盤の必要性を訴えています。
NutanixはAHV上での仮想化やNVIDIAトポロジーに応じた最適化、BlueField DPUによる仮想ネットワークオフロード、AIゲートウェイによるクラウドLLMアクセス制御やMCP対応などを組み合わせ、Ciscoインフラ上で導入できるとしました。
さらに、プラットフォームチームと開発チームの役割分担を維持しつつ、自己サービスのAI機能とガバナンスを提供し、開発の俊敏性を損なわない運用モデルが成功に必要だとしています。
同社は、コストや稼働率、スケジューリング効率を持続的に管理することが、AI投資を実用化・拡大する前提になると結論づけました。

参照元：2026/05/01 「Cheaper tokens, bigger bills: The new math of AI infrastructure」 https://venturebeat.com/orchestration/cheaper-tokens-bigger-bills-the-new-math-of-ai-infrastructure