アップルはWWDC26で発表した第三世代の基盤モデル「AFM 3」について、オンデバイスで20Bパラメータ級のモデルを扱う新アーキテクチャを明らかにしました。
同社のAFM 3 Core Advancedは、モデルの重み全体をDRAMではなくNANDフラッシュに保存し、DRAMは必要な専門家(エキスパート)を読み込むための作業領域として使います。
通常のオンデバイスAIでは、重みをすべてDRAMに置く必要があるため、実用的なパラメータ数がサーバーより大幅に制限されます。
アップルはこの制約を「Instruction-Following Pruning(IFP)」と呼ぶ方式で回避し、プロンプトごとにルーティングを行って選択した専門家セットをDRAMへ一度だけ読み込みます。
Mixture of Expertsのようにトークンごとに専門家を切り替えると、NANDからDRAMへの転送が推論速度に追いつかないため、AFM 3 Core Advancedはルーティングをプロンプト単位に限定します。
また、活性化されるパラメータ数はタスクの複雑さに応じて1Bから最大4Bまで変化し、フラッシュにある20Bのプールから必要部分を使います。
一方で、アップルはオンデバイス要求がいつオフロードされるか、開発者やユーザーにそのルーティングが見えるかについては明確にしていません。
さらに、電力やメモリ帯域、熱などの実運用指標は公開資料に十分含まれていないと指摘されており、完全な技術レポートとベンチマークは夏に追加公開される予定です。
企業のアーキテクトにとっては、DRAM制約が更新される一方で、プライベートクラウド計算との境界やサーバー側の実行条件を再検討する必要があるとされています。
参照元:2026/06/10 「On-device AI agents hit a hard memory limit. Apple’s new architecture routes around it.」 https://venturebeat.com/technology/on-device-ai-agents-hit-a-hard-memory-limit-apples-new-architecture-routes-around-it
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント